Openbravo-rus.ru

Образование по русски
5 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Переобучение модели это

Переобучение

Материал из MachineLearning.

Содержание

Обобщающая способность (generalization ability, generalization performance). Говорят, что алгоритм обучения обладает способностью к обобщению, если вероятность ошибки на тестовой выборке достаточно мала или хотя бы предсказуема, то есть не сильно отличается от ошибки на обучающей выборке. Обобщающая способность тесно связана с понятиями переобучения и недообучения.

Переобучение, переподгонка (overtraining, overfitting) — нежелательное явление, возникающее при решении задач обучения по прецедентам, когда вероятность ошибки обученного алгоритма на объектах тестовой выборки оказывается существенно выше, чем средняя ошибка на обучающей выборке. Переобучение возникает при использовании избыточно сложных моделей.

Недообучение — нежелательное явление, возникающее при решении задач обучения по прецедентам, когда алгоритм обучения не обеспечивает достаточно малой величины средней ошибки на обучающей выборке. Недообучение возникает при использовании недостаточно сложных моделей.

Пример. На рисунке справа показан эффект переобучения в одной задаче медицинского прогнозирования. Точки на графике соотвествуют различным методам обучения. Каждая точка получена путём усреднения по большому числу разбиений исходной выборки из 72 прецедентов на обучающую подвыборку и контрольную. Горизонтальная ось — частота ошибок на обучении; вертикальная — на контроле. Хорошо видно, что точки имеют систематическое смещение вверх относительно диагонали графика.

О природе переобучения

Эмпирическим риском называется средняя ошибка алгоритма на обучающей выборке. Метод минимизации эмпирического риска (empirical risk minimization, ERM) наиболее часто применяется для построения алгоритмов обучения. Он состоит в том, чтобы в рамках заданной модели выбрать алгоритм, имеющий минимальное значение средней ошибки на заданной обучающей выборке.

С переобучением метода ERM связано два утверждения, которые на первый взгляд могут показаться парадоксальными.

Утверждение 1. Минимизация эмпирического риска не гарантирует, что вероятность ошибки на тестовых данных будет мала. Легко строится контрпример — абсурдный алгоритм обучения, который минимизирует эмпирический риск до нуля, но при этом абсолютно не способен обучаться. Алгоритм состоит в следующем. Получив обучающую выборку, он запоминает её и строит функцию, которая сравнивает предъявляемый объект с запомненными обучающими объектами. Если предъявляемый объект в точности совпадает с одним из обучающих, то эта функция выдаёт для него запомненный правильный ответ. Иначе выдаётся произвольный ответ (например, случайный или всегда один и тот же). Эмпирический риск алгоритма равен нулю, однако он не восстанавливает зависимость и не обладает никакой способностью к обобщению.

Вывод: для успешного обучения необходимо не только запоминать, но и обобщать.

Утверждение 2. Переобучение появляется именно вследствие минимизации эмпирического риска. Пусть задано конечное множество из D алгоритмов, которые допускают ошибки независимо и с одинаковой вероятностью. Число ошибок любого из этих алгоритмов на заданной обучающей выборке подчиняется одному и тому же биномиальному распределению. Минимум эмпирического риска — это случайная величина, равная минимуму из D независимых одинаково распределённых биномиальных случайных величин. Её ожидаемое значение уменьшается с ростом D. Соотвественно, с ростом D увеличивается переобученность — разность вероятности ошибки и частоты ошибок на обучении.

В данном модельном примере легко построить доверительный интервал переобученности, так как функция распределения минимума известна. Однако в реальной ситуации алгоритмы имеют различные вероятности ошибок, не являются независимыми, а множество алгоритмов, из которого выбирается лучший, может быть бесконечным. По этим причинам вывод количественных оценок переобученности является сложной задачей, которой занимается теория вычислительного обучения. До сих пор остаётся открытой проблема сильной завышенности верхних оценок вероятности переобучения.

Утверждение 3. Переобучение связано с избыточной сложностью используемой модели. Всегда существует оптимальное значение сложности модели, при котором переобучение минимально.

Пример. Рассмотрим задачу аппроксимации вещественной функции по обучающей выборке из 50 точек . Это равномерная сетка на отрезке .

В качестве модели рассмотрим полиномы заданной степени :

В качестве метода обучения возьмём метод наименьших квадратов:

Таким образом, функция потерь квадратична: .

Возьмём контрольную выборку — также равномерную сетку на отрезке , узлы которой находятся в точности между узлами первой сетки: .

Зададимся вопросом: что будет на контрольной выборке при увеличении степени полинома ? Степень связана с числом свободных параметров модели, то есть играет роль сложности модели.

Ниже показаны графики самой выборки и аппроксимирующей функции:

  • при — недообучение.
  • при — оптимальная сложность модели.
  • при — неустойчивость и переобучение.

Определения

— подмножество (выборка) объектов из множества объктов , — множество алгоритмов, — функция потерь, значение есть величина потерь, возникающих при применении алгоритма к объекту .

Средней потерей алгоритма на выборке называется величина

Пусть — вероятностное пространство. Ожидаемой потерей алгоритма называется величина

Если функция бинарная (возвращяет либо 0, либо 1), то называется частотой ошибок, а — вероятностью ошибки алгоритма .

Не столь важно, что скрывается за термином «алгоритм». Это могут быть в частности, решающие правила в задачах классификации и распознавания образов, функции регрессии в задачах восстановления регрессии илипрогнозирования, и т. п.

Определение. Методом обучения (или алгоритмом обучения) называется отображение , которое произвольной обучающей выборке ставит в соответствие некоторый алгоритм .

Вероятность переобучения (частотное определение)

Определение. Переобученностью алгоритма относительно контрольной выборки называется разность

Определение. Вероятностью переобучения называется вероятность того, что величина переобученности превысит заданный порог :

где вероятность можно понимать в смысле равномерного распределения на множестве всех разбиений выборки на наблюдаемую обучающую и скрытую контрольную .

Вероятность переобучения может быть измерена эмпирически методом Монте-Карло, см. также скользящий контроль:

где — случайных разбиений заданной выборки на обучающую подвыборку и контрольную подвыборку .

Вероятность переобучения (вероятностное определение)

Определение. Переобученностью алгоритма называется разность

Определение. Вероятностью переобучения называется вероятность того, что величина переобученности превысит заданный порог :

где — вероятность в пространстве случайных незавичимых выборок , взятых из одного и того же неизвестного распределения.

Недостатки вероятностного определения:

  • Сложность эмпирического измерения при неизвестной вероятностной мере.
  • Большинство верхних оценок для выводятся через оценки для с помощью Леммы о симетризации. При это снижается точность оценок.

Теоретические верхние оценки переобученности

Сложность

Оценки, основанные на самоограничении (self-bounding)

Оценки, основанные на последовательности выборов (microchoice bounds)

Оценки, основанные на расслоении семейства алгоритмов (shell bounds)

Разделимость

Оценки, основанные на отступах (margin-based bounds)

Устойчивость

Устойчивость алгоритма обучения (algorithmic stability)

Эмпирическое измерение переобучения

См. также

Ссылки

Overfitting — статья о переобучении в англоязычной Википедии.

Переобучение

Переобучение (англ. overfitting) — негативное явление, возникающее, когда алгоритм обучения вырабатывает предсказания, которые слишком близко или точно соответствуют конкретному набору данных и поэтому не подходят для применения алгоритма к дополнительным данным или будущим наблюдениям.

Недообучение (англ. underfitting) — негативное явление, при котором алгоритм обучения не обеспечивает достаточно малой величины средней ошибки на обучающей выборке. Недообучение возникает при использовании недостаточно сложных моделей.

На примере линейной регрессии [ править ]

Представьте задачу линейной регрессии. Красные точки представляют исходные данные. Синие линии являются графиками полиномов различной степени M, аппроксимирующих исходные данные.

Как видно из Рис. 1, данные не поддаются линейной зависимости при небольшой степени полинома и по этой причине модель, представленная на данном рисунке, не очень хороша.

На Рис. 2 представлена ситуация, когда выбранная полиномиальная функция подходит для описания исходных данных.

Рис. 3 иллюстрирует случай, когда высокая степень полинома ведет к тому, что модель слишком заточена на данные обучающего датасета.

На примере логистической регрессии [ править ]

Представьте задачу классификации размеченных точек. Красные точки представляют данные класса 1. Голубые круглые точки — класса 2. Синие линии являются представлением различных моделей, которыми производится классификация данных.

Рис. 4 показывает результат использования слишком простой модели для представленного датасета. Как видно из рисунка, данные плохо классифицируются такой моделью.

При выявлении недообучения следует выбрать более сложную модель (Рис. 5), которая бы смогла лучше описать представленные данные.

Выбор слишком сложной модели приводит к ситуации, когда модель максимально точно классифицирует обучающую выборку, но сильно ошибается на новых измерениях. Данная ситуация представлена на Рис. 6.

Кривая обучения — графическое представление того, как изменение меры обученности (по вертикальной оси) зависит от определенной единицы измерения опыта (по горизонтальной оси) [1] . Например, в примерах ниже представлена зависимость средней ошибки от объема датасета.

Читать еще:  Скачать обучающую программу excel

Кривые обучения при переобучении [ править ]

При переобучении небольшая средняя ошибка на обучающей выборке не обеспечивает такую же малую ошибку на тестовой выборке.

Рис. 7 демонстрирует зависимость средней ошибки для обучающей и тестовой выборок от объема датасета при переобучении.

Кривые обучения при недообучении [ править ]

При недообучении независимо от объема обучающего датасета как на обучающей выборке, так и на тестовой выборке небольшая средняя ошибка не достигается.

Рис. 8 демонстрирует зависимость средней ошибки для обучающей и тестовой выборок от объема датасета при недообучении.

Bias — ошибка неверных предположений в алгоритме обучения. Высокий bias может привести к недообучению.

Variance — ошибка, вызванная большой чувствительностью к небольшим отклонениям в тренировочном наборе. Высокая дисперсия может привести к переобучению.

При использовании нейронных сетей variance увеличивается, а bias уменьшается с увеличением количества скрытых слоев.

Для устранения high variance и high bias можно использовать смеси и ансамбли. Например, можно составить ансамбль (boosting) из нескольких моделей с высоким bias и получить модель с небольшим bias. В другом случае при bagging соединяются несколько моделей с низким bias, а результирующая модель позволяет уменьшить variance.

Дилемма bias–variance [ править ]

Дилемма bias–variance — конфликт в попытке одновременно минимизировать bias и variance, тогда как уменьшение одного из негативных эффектов, приводит к увеличению другого. Данная дилемма проиллюстрирована на Рис 10.

При небольшой сложности модели мы наблюдаем high bias. При усложнении модели bias уменьшается, но variance увеличится, что приводит к проблеме high variance.

Методы борьбы с переобучением искусственных нейронных сетей

Воронецкий Юлиан Олегович – студент кафедры Компьютерных систем и сетей Московского государственного технического университета им. Н. Э. Баумана.

Жданов Никита Алексеевич – студент кафедры Компьютерных систем и сетей Московского государственного технического университета им. Н. Э. Баумана.

Научный руководитель Фомин Михаил Михайлович – преподаватель кафедры Компьютерных систем и сетей Московского государственного технического университета им. Н. Э. Баумана.

Аннотация: В настоящее время искусственные нейронные сети применяются в различных областях науки. Однако, при обучении нейросетей нередко возникает множество проблем, ухудшающих точность найденного системой решения. Одной из таких проблем является переобучение – явление, когда построенная модель хорошо объясняет примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении. В рамках данной статьи рассматриваются основные методы борьбы с переобучением искусственных нейронных сетей.

Ключевые слова: Переобучение, недообучение, нейросети, прецеденты, машинное обучение, dropout, ансамбль.

Методы борьбы с переобучением искусственных нейронных сетей

Переобучение (overfitting) — одна из проблем глубоких нейронных сетей (Deep Neural Networks, DNN). Суть данной проблемы состоит в следующем: модель хорошо объясняет только примеры из обучающей выборки, адаптируясь к обучающим примерам, вместо того чтобы учиться классифицировать примеры, не участвовавшие в обучении (теряя способность к обобщению).

Одной из важных характеристик алгоритмов машинного обучения является обобщающая способность [1]. Обобщающая способность – это свойство модели отражать исходные данные в требуемые результаты (X -> Y) на всем множестве исходных данных (во всех сценариях, а не только на тренировочных примерах). Величину обобщения оценивают через обратную величину – отклонение или ошибку. Ошибка – это численно выраженная разница между ответом модели и требуемым (реальным) значением. В более общем смысле обобщающая способность – способность модели найти некое соответствие, которое будет описывать неизвестную нам и скрытую взаимосвязь входных и выходных данных. Однако с ней связаны еще два понятия: недообучение и переобучение [1].

Недообучение возникает при обучении по прецедентам и характеризуется тем, что алгоритм обучения нейросети не дает удовлетворительно малой средней ошибки на обучающем множестве. Как правило, это явление появляется вследствие использования недостаточно сложных моделей [2].

Противоположное такому явлению – переобучение. Его суть состоит в том, что вероятность ошибки натренированного алгоритма на объектах Тренировочной выборки оказывается существенно меньше, чем на объектах тестовой. Зачастую переобучение появляется из-за использования слишком сложных моделей, либо наборов данных, в которых вхождения похожи друг на друга.

Переобучение или недообучение сети свидетельствует о несоответствии сложности сети характеру зависимостей в данных. Недообучение говорит о том, что сеть недостаточно сложна для воспроизведения зависимостей. Переобучение, напротив, свидетельствует о том, что сеть строит слишком сложную модель.

Рассмотрим популярные способы борьбы с проблемой переобучения.

Батч-нормализация

Батч-нормализация — метод ускорения глубокого обучения, предложенный Ioffe и Szegedy в начале 2015 года, уже процитированный на arXiv 560 раз [3]. Метод решает следующую проблему, препятствующую эффективному обучению нейронных сетей: по мере распространения сигнала по сети, даже если он нормализован на входе, пройдя через внутренние слои, он может сильно исказиться как по математическому ожиданию, так и по дисперсии (данное явление называется внутренним ковариационным сдвигом), что чревато серьезными несоответствиями между градиентами на различных уровнях. Поэтому нам приходится использовать более сильные регуляризаторы, замедляя тем самым темп обучения.

Батч-нормализация предлагает весьма простое решение данной проблемы: нормализовать входные данные таким образом, чтобы получить нулевое математическое ожидание и единичную дисперсию. Нормализация выполняется перед входом в каждый слой [3]. Это значит, что во время обучения происходит нормализация размеров пакетов примеров, а во время тестирования нормализуется статистика, полученная на основе всего обучающего множества, так как увидеть заранее тестовые данные нет возможности. А именно, вычисляется математическое ожидание и дисперсия для определенного батча (пакета) следующим образом:

С помощью этих статистических характеристик мы преобразуем функцию активации таким образом, чтобы она имела нулевое матожидание и единичную дисперсию на всем батче:

где ε >0 — параметр, защищающий нас от деления на 0 (в случае, если среднеквадратичное отклонение батча очень мало или даже равно нулю).

Наконец, чтобы получить окончательную функцию активации y, нам надо убедиться, что во время нормализации мы не потеряли способности к обобщению, и так как к исходным данным мы применили операции масштабирования и сдвига, мы можем позволить произвольные масштабирование и сдвиг нормализованных значений, получив окончательную функцию активации:

Где β и γ — параметры батч-нормализации, которым системы можно обучить (их можно оптимизировать методом градиентного спуска на обучающих данных). Это обобщение также означает, что батч-нормализацию может быть полезно применять непосредственно к входным данным нейронной сети [4].

Этот метод в применении к глубоким сверточным сетям почти всегда успешно достигает своей цели — ускорить обучение. Более того, он может служить отличным регуляризатором, позволяя не так осмотрительно выбирать темп обучения, мощность регуляризатора и dropout (иногда необходимость в них совсем отпадает). Регуляризация здесь — следствие того факта, что результат работы сети для определенного примера больше не детерминировано (он зависит от всего батча, в рамках которого данный результат получен), что упрощает обобщение [4].

Расширение обучающего множества

Метод ансамблей

Одна интересная особенность нейронных сетей, которую можно заметить, когда они используются для распределения данных на более чем два класса — это то, что при различных начальных условиях обучения им легче дается распределение по одним классам, в то время как другие приходят в замешательство [5]. На примере MNIST можно обнаружить, что отдельно взятая нейронная сеть прекрасно умеет отличать тройки от пятерок, но не учится правильно отделять единицы от семерок, в то время как дела с другой сетью обстоят, наоборот.

С этим несоответствием можно бороться с помощью метода статистических ансамблей — вместо одной сети требуется построить несколько ее копий с разными начальными значениями и вычислите их средний результат на одних и тех же входных данных.

Рисунок 1. Базовая сеть.

Рисунок 2. Ансамбль из нескольких базовых сетей.

Ранняя остановка

Обучение сетей обычно начинается с малых случайных значений весов. Пока значения весов малы по сравнением с характерным масштабом нелинейной функции активации (обычно принимаемом равным единице), вся сеть представляет из себя суперпозицию линейных преобразований, т.е. является также линейным преобразованием с эффективным числом параметров равным числу входов, умноженному на число выходов. По мере возрастания весов и степень нелинейности, а вместе с ней и эффективное число параметров возрастает, пока не сравняется с общим числом весов в сети [6].

Читать еще:  Бизнес аналитик обучение москва

В методе ранней остановки обучение прекращается в момент, когда сложность сети достигает оптимального значения. Этот момент оценивается по поведению во времени ошибки валидации.

Данная методика привлекательна своей простотой. Но она имеет и свои слабые стороны: слишком большая сеть будет останавливать свое обучение на ранних стадиях, когда нелинейности еще не успели проявиться в полную силу. Т.е. эта методика чревата нахождением слабо-нелинейных решений [6]. На поиск сильно нелинейных решений нацелен метод прореживания весов, который, в отличае от предыдущего, эффективно подавляет именно малые значения весов.

Чтобы помочь сети не утратить способности к обобщению при переобучении, вводятся приемы регуляризации: вместо сокращения количества параметров, накладываются ограничения на параметры модели во время обучения, не позволяя нейронам изучать шум обучающих данных [7].

Прием dropout помогает исключить ситуации, описанные выше. В частности, dropout с параметром p за одну итерацию обучения проходит по всем нейронам определенного слоя и с вероятностью p полностью исключает их из сети на время итерации. Это заставит сеть обрабатывать ошибки и не полагаться на существование определенного нейрона (или группы нейронов), а полагаться на “единое мнение” (consensus) нейронов внутри одного слоя. Это довольно простой метод, который эффективно борется с проблемой переобучения сам, без необходимости вводить другие регуляризаторы. Схема ниже иллюстрирует данный метод.

Заключение

Рассмотрены основные проблемы, возникающие при построении глубоких нейронных сетей. Изучены методы решения данных проблем. Рассмотренные методы:

  • Батч-нормализация;
  • Метод ансамблей;
  • Ранняя остановка;
  • Dropout.

Каждый метод имеет свои достоинства и недостатки, поэтому выбор метода для борьбы с проблемой переобучения зависит от предназначения проектируемой нейронной сети.

Терминология переобучения в машинном обучении

0 G. LC [2018-07-29 20:17:00]

В книге » Введение в машинное обучение с помощью Python» на стр. 50 автор выполняет линейную регрессию в наборе данных и получает:

Затем они заявляют, что они «скорее недоукомплектованы, а не перерабатывают».

Однако, используя TensorFlows Basic Classification Tutorial, они используют набор данных MNIST Fashion с нейронной сетью и получают:

и затем они заявляют следующее

«Оказывается, точность в тестовом наборе данных немного меньше точности в наборе учебных материалов. Этот разрыв между точностью обучения и точностью тестирования является примером переобучения. Переобучение — это когда модель машинного обучения хуже работает с новыми данными, чем по их учебным данным «.

Я считаю, что цитата, взятая с сайта TensorFlow, является правильной, или они оба правильные, и я не полностью понимаю переопределение.

python scikit-learn machine-learning

3 ответа

0 Решение Bruno Lubascher [2018-07-29 20:42:00]

Over- и подгонка

Самый сложный вариант, который вы можете сделать, — это точность 100% на вашем тренировочном наборе. Это означает, что ваша модель научилась точно прогнозировать вклад, который он видел раньше. Если вы когда-либо находитесь в этой ситуации, ваш тестовый набор, вероятно, будет работать очень плохо.

Вы можете обнаружить переобучение:

  • Высокая точность на тренировочном наборе
  • большой разрыв между обучением и набором тестов

Вы можете обнаружить недофинансирование:

  • Низкая точность на обучающем наборе (независимо от производительности на тестовом наборе)

Примеры:

Этот пример имеет низкий балл на тренировочном наборе. Поэтому недоукомплектование кажется справедливым.

Это зависит от интерпретации. Счет на тренировочном наборе довольно высок, и есть пробел в отношении набора тестов.

Если примеры в обоих наборах очень похожи, то я бы сказал, что есть некоторая переоценка. Однако, если два набора сильно отличаются (например, из разных источников), то результаты могут считаться приемлемыми.

2 Li357 [2018-07-29 20:24:00]

Underfitting происходит, когда точность обучения и тестирования низкая. Это означает системную проблему с вашей моделью, то есть данные будут лучше соответствовать полиномиальной модели, но вы используете линейную модель. Таким образом, точность в 66% для обучения и тестирования считается недостаточной, поскольку они оба очень низки. В общем случае высокая ошибка на обоих наборах указывает на недоподготовку.

Переобучение происходит, когда у вас относительно высокая точность обучения, но ниже при тестировании. Это означает, что ваша модель слишком сильно связана с вашими данными обучения и не хорошо обобщает другие данные. В целом, низкая ошибка при обучении и более высокая ошибка при тестировании указывает на переобучение.

В общем, очень редко можно построить модель, которая будет показывать ту же самую производительность при настройке обучения и валидации (или тестах, или выносливости, что бы вы хотели назвать). Таким образом, разрыв между обучением и набором валидации будет там (почти) всегда. Вы увидите определение переобучения на основе разрыва часто, но на практике оно неприменимо, так как оно не является количественным. Более общая концепция здесь — «компромисс между отклонениями», который вы можете захотеть в Google. Соответствующий вопрос заключается в том, насколько велика разница, насколько хороша производительность и как производительность на наборе валидации ведет себя с измененной сложностью модели.

переобучения — Overfitting

В статистике, переобучение является «производством анализа , что соответствует слишком близко или точно к определенному набору данных, и , возможно , поэтому не подходят дополнительные данные или предсказывать будущие наблюдения надежно». Overfitted модель представляет собой статистическую модель , которая содержит больше параметров , чем может быть оправдано данными. Суть переобучения состоит в незнанию экстрагируют некоторые из остаточной вариации (то есть шум ) , как если это изменение представляли собой базовую модель структуры.

Underfitting происходит тогда , когда статистическая модель не может адекватно захватить основную структуру данных. Underfitted модель представляет собой модель , в которой некоторые параметры или условия , которые появляются в правильно указанной модели отсутствуют. Underfitting будет иметь место, например, при установке линейной модели к нелинейным данным. Такая модель , как правило, имеет низкую прогностическую эффективность.

Переобучения и underfitting может происходить в машинном обучении , в частности. В машинном обучении, явления иногда называют «перетренированности» и «undertraining».

Возможность переобучения существует потому , что критерий , используемый для выбора модели не совпадают с критерием , используемым для оценки пригодности модели. Например, модель может быть выбрана путем максимизации его производительности на некотором множестве обучающих данных , и все же его пригодность может быть определена по его способности хорошо выполнять на невидимых данных; то переобучение происходит , когда модель начинает «запоминает» обучающие данные , а не «обучение» обобщать тренд.

В качестве крайнего примера, если число параметров такого же, как или больше, чем число наблюдений, то модель может отлично предсказать обучающие данные просто путем запоминания данных в полном объеме. (Для иллюстрации см Рисунок 2.) такой модели, однако, как правило, будет не в состоянии серьезно, когда делать прогнозы.

Потенциал для переобучения зависит не только от числа параметров и данных , но и формуемости модельной структуры с формой данных, и величины ошибки модели по сравнению с ожидаемым уровнем шума или ошибок в данных. Даже тогда , когда встроенная модель не имеет чрезмерное количество параметров, то следует ожидать , что встроены отношения будут отображаться для выполнения менее хорошо на новом наборе данных , чем на множестве данных , используемое для установки (явление иногда называют усадкой ) , В частности, значение коэффициента детерминации будет сокращаться по отношению к исходным данным.

Для того, чтобы уменьшить шанс, или количество, переобучения, несколько методов доступны (например , сравнение модели , кросс-валидация , регуляризация , раннее прекращение , обрезке , байесовы приоры или отсев ). В основе некоторых методик либо (1) явно Штрафуется чрезмерно сложные модели или (2) , чтобы проверить способность модели к обобщению, оценивая его работу по набору данных , не используемые для обучения, которые предполагаются приблизить типичные невидимые данные что модель будет сталкиваться.

Читать еще:  Диджитал инструменты в обучении

содержание

Статистические выводы

В статистике, умозаключение взято из статистической модели , которая была выбранной с помощью некоторой процедуры. Burnham & Anderson, в их много цитированной текста на выбор модели, утверждают , что , чтобы избежать переобучения, мы должны придерживаться « принципа бережливости ». Авторы также утверждают следующее.

Overfitted модель . часто свободна от предвзятости в оценках параметров, но по оценкам (и фактические) выборка отклонений, которые неоправданно велики (точность оценок бедна, по сравнению с тем, что могло быть достигнуты с более экономной моделью). Ложные эффекты лечения, как правило, должны быть определены, и ложные переменные включены overfitted моделей. . Лучший модель аппроксимирующая достигается за счет правильной балансировки ошибки underfitting и переобучения.

Переобучения, скорее всего, будет серьезной проблемой , когда есть немного теории доступны для проведения анализа, в частности , потому что тогда , как правило, большое количество моделей , чтобы выбрать из. Книга Выбор модели и модели Усреднение (2008) ставит его таким образом.

Учитывая набор данных, вы можете поместить тысячи моделей при нажатии кнопки, но как выбрать лучший? С таким большим количеством моделей-кандидатов, переобучение реальной опасность. Являются ли обезьяны, которые набрали Гамлет на самом деле хороший писатель?

регрессия

В регрессионном анализе , переобучение происходит часто. В качестве крайнего примера, если есть р переменные в линейной регрессии с р точками данных, насаженная линия может пройти точно через каждую точку. Для логистической регрессии или Сох модели пропорционального риска , существует целый ряд правил большого пальца (например , 5-9, 10 и 10-15 — директива 10 наблюдений за независимой переменной известен как « один из десяти правила »). В процессе выбора модели регрессии, средний квадрат ошибку функции случайной регрессии можно разделить на случайный шум, смещение аппроксимации, и дисперсию в оценке функции регрессии. Диагонально-дисперсия Компромисс часто используется для преодоления overfit моделей.

С большим набором объясняющих переменных , которые на самом деле не имеют никакого отношения к зависимой переменной пророчат, некоторые переменные в общем случае ложно оказались статистически значимыми и исследователь может , таким образом , сохранить их в модели, тем самым переобучения модель. Это известно как парадокс Фридмана .

Машинное обучение

Обычно обучение алгоритма обучается с помощью некоторого набора «обучающих данных»: иллюстративных ситуации , для которых требуемого выход известен. Цель состоит в том, что алгоритм будет также хорошо работать на предсказание выхода при подаче «данные проверок» , которые не столкнулись в процессе его подготовки.

Переобучения является использование моделей или процедур , которые нарушают бритву Оккама , например , путем включения более регулируемые параметров , чем в конечном счете оптимального, или с использованием более сложным , чем подход, в конечном счете оптимальный. Для примера , в котором есть слишком много регулируемых параметров, рассмотрит набор данных , где обучение данных у может быть адекватно предсказанные линейной функцией от двух независимых переменных. Такая функция требует только три параметра (перехвата и два наклонов). Замена этой простой функции с новой, более сложной квадратичной функцией, или с новой, более сложной линейной функцией на более чем два независимых переменных, несет в себе риск: Бритва Оккама предполагает , что любая сложная функция является априори менее вероятной , чем любым заданным простым функция. Если новая, более сложная функция выбрана вместо простой функции, и если бы не было достаточно большой выигрыша в тренинге-данных подходят , чтобы компенсировать увеличение сложности, то новую комплексную функцию «overfits» данные, а также комплекс overfitted функция, скорее всего , работает хуже , чем простая функция по данным проверки за пределами обучающего набора данных, даже если функция комплекса выполнена так же, или , возможно , даже лучше, на тренировочном наборе данных.

При сравнении различных типов моделей, сложности не могут быть измерены только с помощью подсчета , как существует много параметров в каждой модели; выразительность каждого параметра следует рассматривать как хорошо. Так , например, нетривиально непосредственно сравнить сложность нейронной сети (который может отслеживать криволинейных отношения) с т параметров в регрессионной модели с п параметрами.

Переобучения, особенно вероятно в тех случаях , когда обучение было выполнено слишком долго или там , где примеры обучения являются редкими, в результате чего обучаемого , чтобы приспособиться к очень специфическим случайным особенностям обучающих данных , которые не имеют причинно — следственную связи в целевой функцию . В этом процессе переобучения, производительность на учебных примерах , все еще увеличивается , а производительность на невидимых данных становится хуже.

В качестве простого примера, рассмотрим базу данных розничных покупок, который включает деталь купил, покупателя, а также дату и время покупки. Легко построить модель, которая будет соответствовать обучающему набору отлично, используя дату и время покупки, чтобы предсказать другие атрибуты, но эта модель не будет обобщать на все новые данные, поскольку эти прошлые времена никогда не повторятся.

Как правило, алгоритм обучения называется overfit относительно более простой , если она является более точным в установке известных данных (задним числом) , но менее точные предсказания новых данных (прогнозов). Можно интуитивно понять переобучение из того , что информации от всех прошлого опыта можно разделить на две группы: сведения, относящиеся к будущему, и ненужной информации ( «шум»). При прочих равных, тем труднее критерий а является предсказать (т.е. чем выше его неопределенность), тем больше шума существует в прошлом информацию , которая должна быть проигнорировано. Проблема определения , какая часть игнорировать. Алгоритм обучения , который может уменьшить вероятность фитинга шума называется « надежным .»

последствия

Наиболее очевидное следствие переобучения является низкой производительностью на наборе данных проверки. Другие отрицательные последствия включают в себя:

  • Функция, которая overfitted может запросить дополнительную информацию о каждом элементе в наборе данных проверки, чем это делает функцию оптимальной; сбор этих дополнительных ненужные данные могут быть дорогими или к ошибкам, особенно если каждая отдельная часть информации должна быть собрана человеческого наблюдения и ручного ввода данных.
  • Более сложный, overfitted функция, вероятно, будет менее компактен, чем простой. На одном полюсе, один переменная линейная регрессия настолько портативная, что, в случае необходимости, он может даже быть сделан вручную. На другом полюсе находятся модели, которые могут быть воспроизведены только точно дублировать всю установку оригинального Modeler, что делает повторное использование или воспроизведение научного трудно.

средство

Функция оптимальна обычно требует проверок на больших или совершенно новых наборах данных. Есть, однако, такие методы , как минимального охватывающего дерева или жизни время корреляции , которая применяется зависимость между коэффициентами корреляции и временных рядов (ширина окна). Всякий раз , когда ширина окна достаточно большая, то коэффициенты корреляции стабильны и не зависят от ширины окна размера больше. Таким образом, корреляционная матрица может быть создана путем вычисления коэффициента корреляции между исследуемым переменным. Эта матрица может быть представлена топологический как сложная сеть , где прямые и косвенные влияния между переменным визуализируются.

Underfitting

Underfitting возникает, когда статистическая модель или алгоритм машинного обучения не может адекватно охватить основную структуру данных. Это происходит, когда модель или алгоритм не подходит достаточно данных. Underfitting возникает, если модель или алгоритм показывает низкое отклонение, но высокое смещение (противопоставить противоположную, переобучение от высокой дисперсии и низкого смещения). Это часто является результатом слишком простой модели.

Берны & Андерсон заявить следующее.

. underfitted модель будет игнорировать некоторые важные тиражных (то есть, концептуально воспроизводимый в большинстве других образцов) структуру данных и, таким образом, не в состоянии определить эффекты, которые были на самом деле, поддерживаемые данным. В этом случае смещение в оценках параметров часто является существенным, и дисперсия выборки занижена, оба фактора приводит к плохому интервалу охвата доверия. Underfitted модели, как правило пропустить важные эффекты лечения в экспериментальных условиях.

Ссылка на основную публикацию
Adblock
detector