Openbravo-rus.ru

Образование по русски
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Кривые обучения машинное обучение

Анализ малых данных

КвазиНаучный блог Александра Дьяконова

Кривые в машинном обучении

Этот пост продолжает тему оценки качества алгоритмов машинного обучения для решения задач классификации. Рассмотрим кривые «полнота-точность», Gain, Lift, K-S (machine learning curves) и таблицу для анализа доходности. Самое главное — мы определим все кривые через уже знакомые нам понятия, часто используемые в ML (а не как обычно: для каждой кривой придумывается своя терминология).

Предыдущие посты в блоге на эту тему:

Мы уже описывали ROC-кривую и рассматривали площадь под ней (AUC ROC). Сейчас опишем другие популярные кривые, которые строят для оценки качества классификации. Будем предполагать, что решается задача классификации с двумя классами: положительным (1) и отрицательным (0). Алгоритм выдаёт оценку принадлежности к классу 1, при выборе порога все объекты, оценки которых не ниже порога, мы относим к классу 1, соответственно, сразу становятся определены все метрики качества рассмотренные здесь: точность, полнота и т.п. Все кривые будем иллюстрировать на модельной задачи из этого поста с линейными плотностями.

Кривая «полнота-точность». Как следует из названия, эта кривая строится в координатах полнота (R = recall) и точность (P = precision). На рис. 1-2 показаны PR-кривые в модельной задаче: синим – теоретическая кривая, красными тонкими линиями – кривые, построенные по выборкам с соответствующими плотностями. Рис. 1 – для выборок из 300 объектов, рис. 2 – для выборок из 3000 объектов. Заметим, что в общем случае PR-кривая не выпуклая. Площадь под ней часто используют в качестве метрики качества алгоритма. В нашей теоретической задаче PR-площадь равна 5/6=0.8(3) ( попробуйте доказать ), для выборок из 300 объектов после 100 экспериментов (генераций выборок) её оценка равна 0.839 ± 0.024 (std), для выборок из 3000 – 0.833 ± 0.012 (std).

Рис. 1. PR-кривые в модельной задаче: теоретическая (синяя) и эмпирические (красная) для выборки из 300 объектов. Рис. 2. PR-кривые в модельной задаче: теоретическая (синяя) и эмпирические (красная) для выборки из 3000 объектов.

Ниже представлен код для вычисления площади под PR-кривой.

На рис. 3 показано, как эмпирическая оценка площади PR-кривой зависит от объёма выборки при разной пропорции классов: когда классы равновероятны и когда есть дисбаланс классов. Более светлым коридором показаны стандартные отклонения от среднего. Видно, что для задачи с дисбалансом классов они больше.

Рис. 3. Оценка AUC_PR для разного объёма выборки и баланса классов.

Площадь под PR-кривой (AUC_PR) рекомендуют использовать как раз в задачах с дисбалансом классов, аргументируя это тем, что эта кривая точнее описывает правильность классификации объектов с большими оценками, тогда как ROC-кривая — различие распределений объектов разных классов по оценкам. Подумайте, корректна ли такая аргументация? Как быть с увеличением погрешности при оценке площади под PR-кривой в задачах с дисбалансом? Отдельно обращаем внимание, что при изменении баланса классов значение AUC_PR меняется, например, если мы случайную половину одного из классов удалим из выборки (AUC_ROC при этом практически не меняется), см. рис. 4.

Рис. 4. Оценка AUC_PR для разного баланса классов.

Gain Curve (Chart) – это кривая в координатах «доля, отнесённых алгоритмом к классу 1», т.е. Positive Rate:

m — число объектов в выборке, и «какой процент класса 1 алгоритм отнес к позитивному», т.е. полнота для класса 1 или True Positive Rate:

Естественно, PR и TPR зависят от порога бинаризации, а сама кривая строится, когда порог пробегает всевозможные значения. Здесь есть несколько сюрпризов. Первый – из определения мы узнаём в этой кривой кривую Лоренца из машинного обучения, которую чаще называют Lift Curve (подробности можно почитать в этом замечательном посте). Кстати, здесь такой же график с небольшим изменением (по Y вместо TPR – TP) также назван «Lift-кривой», а здесь – CAP (Cumulative Accuracy Profile). Второй сюрприз в том, что дальше именем Lift Curve мы назовём другую кривую (а иногда называют и третью, но мы выбрали названия, которые согласовываются с наибольшим числом источников).

На рис. 5-7 показаны Gain-кривые в нашей модельной задаче: теоретические и (тонкими красными линиями) эмпирические, вычисленные по выборкам разных мощностей и при разном балансе классов.

Рис. 5. Gain-кривая в модельной задаче: синяя — теоретическая, красные — эмпирические по выборке из 300 объектов. Рис. 6. Gain-кривая в модельной задаче: синяя — теоретическая, красные — эмпирические по выборке из 3000 объектов. Рис. 7. Gain-кривая в модельной задаче с дисбалансом классов: синяя — теоретическая, красные — эмпирические по выборке из 300 объектов.

На рис. 5-7 чёрной диагональю показана Gain-кривая для случайного алгоритма: понятно, что если алгоритм случайную долю PR всех объектов посчитал положительным классом, то мы ожидаем, что доля объектов класса 1, которых алгоритм посчитал положительными также будет TPR=PR. Чем выше расположена наша кривая относительно диагонали, тем лучше. Отношение высот Gain-кривой и диагонали часто изображают в виде кривой Lift Curve (Chart): она строится в координатах PR и TPR/PR. На рис. 8-10 показаны Lift-кривые, соответствующие нарисованным выше Gain-кривым.

Рис. 8. Lift-кривая в модельной задаче: синяя — теоретическая, красные — эмпирические по выборке из 300 объектов. Рис. 9. Lift-кривая в модельной задаче: синяя — теоретическая, красные — эмпирические по выборке из 300 объектов. Рис. 10. Lift-кривая в модельной задаче с дисбалансом классов: синяя — теоретическая, красные — эмпирические по выборке из 300 объектов.

В банковской среде приняты термины типа Gain-Top-10% или Lift-Top-10%, это просто значения TPR или TPR/PR, когда 10% объектов с наивысшими оценками алгоритма мы относим к классу 1 (т.е. при PR=0.1). Также почему-то принято строить эти кривые лишь по точкам PR = 0.1 (10%), 0.2 (20%), … 1.0 (100%), мы дальше покажем это в таблице.

Попробуйте вычислить площадь под Gain-кривой через AUC_ROC . По смыслу эта площадь — вероятность, что у случайного объекта из класса 1 оценка выше, чем у случайного объекта.

Построение Gain и LIft кривых логично в «задаче о предложении услуги»: мы контактируем с клиентами (обзваниваем или показываем баннеры и т.п.), выборка состоит из описаний клиентов, а целевой признак – отклик на предложение, тогда Gain-кривая показывает, как зависит покрытие целевой аудитории от масштаба контакта.

Kolomogorov-Smirnov (K-S) chart используется для сравнения распределений объектов класса 1 и 0 в пространстве PR (важно: а не оценок, которые выдаёт алгоритм). Строится две кривые: TPR(PR) и FPR(PR). Первая, кстати, знакомая нам Gain-кривая: доля объектов класса 1, которую алгоритм отнёс к классу 1 (в зависимости от процента объектов, которых алгоритм отнёс к классу 1). Смысл второй – доля объектов класса 0, которую алгоритм отнёс к классу 1. На рис. 11 показаны соответствующие кривые для модельной задачи в случае баланса и дисбаланса классов. Максимальная разница между кривыми часто называется KS-расстоянием. Интересно, что в модельной задаче TPR(θ), FPR(θ) не зависят от баланса классов, а вот K-S chart зависит… почему? Доказать, что при p 1 = 0.1 на KSC максимальная разница TPR — FPR достигается в точке 0.3.

Рис. 11. K-S chart для модельной задачи Рис. 12. K-S chart для модельной задачи с дисбалансом классов.

На рис. 13 видно, что K-S-расстояние может вычисляться с ошибкой, особенно на малых выборках. Подумайте, какому порогу бинаризации (каким свойствами он обладает) соответствует максимум TPR – FPR?

Рис. 13. Эмпирические (красные) и теоретические (синие) графики TPR – FPR в задаче с 300 объектами (слева) и 3000 объектами (справа).

При анализе доходности (Profit Analysis) обычно используют такую таблицу: The Gains Table, для её построения объекты упорядочиваются по убыванию оценки принадлежности к классу 1, которую выдал алгоритм, потом разбиваются на 10 равных частей – децилей, каждому децилю соответствует строка таблицы.

Читать еще:  Уровни обучения английскому языку

  • N – число объектов в дециле,
  • % – процент объектов в дециле,
  • cum_… – кумулятивное значение, например cum_% – сколько процентов объектов до этого дециля включительно,
  • Prob – процент объектов из класса 1 в дециле,
  • N_t – число объектов из класса t,
  • %_t – какой процент объектов класса t попал в дециль,
  • K-S – разница распределений по Колмогорову-Смирнову: cum_%1 – cum%_0,
  • Lift – отношение cum_%1 / %.

По таблице можно посчитать экономику, связанную с задачей. Например, если таблица соответствует описанной выше задаче предложения услуги, стоимость контакта равна 1$, а доход с отклика равен 5$, тогда если проконтактировать с 10% клиентов, то траты = 11 238$, доход = 2572*5 = 12 860$, а прибыль = 1 622$.

Ссылки

Реализации функций отрисовки некоторых кривых можно найти здесь:

Переобучение

Переобучение (англ. overfitting) — негативное явление, возникающее, когда алгоритм обучения вырабатывает предсказания, которые слишком близко или точно соответствуют конкретному набору данных и поэтому не подходят для применения алгоритма к дополнительным данным или будущим наблюдениям.

Недообучение (англ. underfitting) — негативное явление, при котором алгоритм обучения не обеспечивает достаточно малой величины средней ошибки на обучающей выборке. Недообучение возникает при использовании недостаточно сложных моделей.

На примере линейной регрессии [ править ]

Представьте задачу линейной регрессии. Красные точки представляют исходные данные. Синие линии являются графиками полиномов различной степени M, аппроксимирующих исходные данные.

Как видно из Рис. 1, данные не поддаются линейной зависимости при небольшой степени полинома и по этой причине модель, представленная на данном рисунке, не очень хороша.

На Рис. 2 представлена ситуация, когда выбранная полиномиальная функция подходит для описания исходных данных.

Рис. 3 иллюстрирует случай, когда высокая степень полинома ведет к тому, что модель слишком заточена на данные обучающего датасета.

На примере логистической регрессии [ править ]

Представьте задачу классификации размеченных точек. Красные точки представляют данные класса 1. Голубые круглые точки — класса 2. Синие линии являются представлением различных моделей, которыми производится классификация данных.

Рис. 4 показывает результат использования слишком простой модели для представленного датасета. Как видно из рисунка, данные плохо классифицируются такой моделью.

При выявлении недообучения следует выбрать более сложную модель (Рис. 5), которая бы смогла лучше описать представленные данные.

Выбор слишком сложной модели приводит к ситуации, когда модель максимально точно классифицирует обучающую выборку, но сильно ошибается на новых измерениях. Данная ситуация представлена на Рис. 6.

Кривая обучения — графическое представление того, как изменение меры обученности (по вертикальной оси) зависит от определенной единицы измерения опыта (по горизонтальной оси) [1] . Например, в примерах ниже представлена зависимость средней ошибки от объема датасета.

Кривые обучения при переобучении [ править ]

При переобучении небольшая средняя ошибка на обучающей выборке не обеспечивает такую же малую ошибку на тестовой выборке.

Рис. 7 демонстрирует зависимость средней ошибки для обучающей и тестовой выборок от объема датасета при переобучении.

Кривые обучения при недообучении [ править ]

При недообучении независимо от объема обучающего датасета как на обучающей выборке, так и на тестовой выборке небольшая средняя ошибка не достигается.

Рис. 8 демонстрирует зависимость средней ошибки для обучающей и тестовой выборок от объема датасета при недообучении.

Bias — ошибка неверных предположений в алгоритме обучения. Высокий bias может привести к недообучению.

Variance — ошибка, вызванная большой чувствительностью к небольшим отклонениям в тренировочном наборе. Высокая дисперсия может привести к переобучению.

При использовании нейронных сетей variance увеличивается, а bias уменьшается с увеличением количества скрытых слоев.

Для устранения high variance и high bias можно использовать смеси и ансамбли. Например, можно составить ансамбль (boosting) из нескольких моделей с высоким bias и получить модель с небольшим bias. В другом случае при bagging соединяются несколько моделей с низким bias, а результирующая модель позволяет уменьшить variance.

Дилемма bias–variance [ править ]

Дилемма bias–variance — конфликт в попытке одновременно минимизировать bias и variance, тогда как уменьшение одного из негативных эффектов, приводит к увеличению другого. Данная дилемма проиллюстрирована на Рис 10.

При небольшой сложности модели мы наблюдаем high bias. При усложнении модели bias уменьшается, но variance увеличится, что приводит к проблеме high variance.

Что такое кривая обучения в машинном обучении?

Я хочу знать, что такое кривая обучения в машинном обучении. Каков стандартный способ его построения? Я имею в виду, какой должна быть ось x и ось y моего сюжета?

7 Ответов

Я думаю, что это обычно относится к графику точности/ошибки прогнозирования в сравнении с размером обучающего набора (т. е.: насколько лучше модель получает прогнозирование цели, поскольку вы увеличиваете количество экземпляров, используемых для ее обучения)

Я просто хочу оставить короткую заметку по этому старому вопросу, чтобы указать, что кривая обучения и кривая ROC не являются синонимами.

Как указано в других ответах на этот вопрос, кривая обучения обычно показывает улучшение производительности на вертикальной оси, когда происходят изменения в другом параметре (на горизонтальной оси), таком как размер обучающего набора (в машинном обучении) или итерация/время (как в машинном, так и в биологическом обучении). Одним из важных моментов является то, что многие параметры модели изменяются в разных точках на графике. Другие ответы здесь проделали большую работу по иллюстрированию кривых обучения.

(Существует также и другое значение кривой обучения в промышленном производстве, берущее начало в наблюдении в 1930-х годах, что количество рабочих часов, необходимых для производства отдельной единицы, уменьшается с одинаковой скоростью, поскольку количество произведенных единиц удваивается. Это не очень актуально, но стоит отметить для полноты и во избежание путаницы в веб-поиске.)

Напротив, рабочая характеристическая кривая приемника, или кривая ROC, не показывает обучения; она показывает производительность. Кривая ROC представляет собой графическое изображение производительности классификатора, которое показывает компромисс между увеличением истинных положительных коэффициентов (по вертикальной оси) и увеличением ложноположительных коэффициентов (по горизонтальной оси) при изменении порога дискриминации классификатора. Таким образом, только один параметр (порог принятия решения / дискриминации), связанный с моделью, изменяется в разных точках графика. Эта кривая ROC (из Википедии ) показывает производительность трех различных классификаторов.

Здесь изображается не обучение, а скорее производительность по отношению к двум различным классам успеха / ошибки, поскольку порог принятия решения классификатором сделан более lenient/strict. глядя на область под кривой, мы можем видеть общее указание на способность классификатора различать классы. Эта метрика area-under-the-curve нечувствительна к числу членов в двух классах, поэтому она может не отражать фактическую производительность, если членство в классе несбалансировано. Кривая ROC имеет много субтитров, и заинтересованные читатели могут проверить это:

Некоторые люди используют «learning curve» для обозначения ошибки итерационной процедуры как функции от числа итераций, т. е. она иллюстрирует сходимость некоторой функции полезности. В приведенном ниже примере я строю среднеквадратичную ошибку (MSE) алгоритма least-mean-square (LMS) в зависимости от числа итераций. Это иллюстрирует, как быстро LMS «learns», в данном случае, отклик канала импульса.

В принципе, кривая машинного обучения позволяет найти точку, с которой алгоритм начинает учиться. Если вы возьмете кривую и затем срежете тангенс наклона для производной в точке, где она начинает достигать константы, то это означает, что она начинает строить свою способность к обучению.

В зависимости от того, как отображаются ваши оси x и y, одна из ваших осей начнет приближаться к постоянному значению, в то время как значения другой оси будут продолжать увеличиваться. Это когда вы начинаете видеть некоторое обучение. Вся кривая в значительной степени позволяет вам измерить скорость, с которой ваш алгоритм способен учиться. Максимальная точка обычно наступает тогда, когда склон начинает отступать. Вы можете принять ряд производных мер до точки максимума / минимума.

Читать еще:  Обучение html 5

Таким образом, из приведенных выше примеров вы можете видеть, что кривая постепенно стремится к постоянному значению. Он изначально начинает использовать свое обучение через учебные примеры, и наклон расширяется в точке максимума / мимимума, где он стремится все ближе и ближе подходить к постоянному состоянию. На этом этапе он может подобрать новые примеры из тестовых данных и найти новые и уникальные результаты из данных. У вас были бы такие измерения оси x/y для эпох против ошибки.

Как вы можете определить для данной модели, будет ли полезно больше точек обучения? Полезной диагностикой для этого являются кривые обучения.

* График зависимости точности/ошибки предсказания от размера обучающего набора (т. е.: насколько лучше модель предсказывает цель по мере увеличения числа экземпляров, используемых для ее обучения)

* Кривая обучения обычно показывает улучшение производительности на вертикальной оси при изменении другого параметра (на горизонтальной оси), например размера обучающего набора (в машинном обучении) или итерации / времени

* Кривая обучения часто полезна для построения графика для проверки алгоритмического здравомыслия или повышения производительности

* Построение кривой обучения может помочь диагностировать проблемы, от которых будет страдать ваш алгоритм

Лично мне две ссылки ниже помогли лучше понять эту концепцию

В классе машинного обучения Эндрю кривая обучения — это график зависимости ошибки training/cross-validation от размера выборки. Кривая обучения может быть использована для определения того, имеет ли модель высокий уклон или высокую дисперсию. Если модель страдает от высокой проблемы смещения, то по мере увеличения размера выборки ошибка обучения будет увеличиваться, а ошибка перекрестной валидации уменьшаться, и, наконец, они будут очень близки друг к другу, но все еще с высокой частотой ошибок как для обучения, так и для классификации ошибок. И увеличение размера выборки не очень поможет при высокой проблеме смещения.

Если модель страдает от высокой дисперсии, то по мере увеличения размера выборки ошибка обучения будет продолжать увеличиваться, а ошибка перекрестной проверки-уменьшаться, и в конечном итоге они будут иметь низкую частоту ошибок обучения и перекрестной проверки. Таким образом, большее количество выборок поможет улучшить производительность прогнозирования модели, если модель страдает от высокой дисперсии.

Пример X= Уровень y=зарплата

X Y 0 2000 2 4000 4 6000 6 8000

Регрессия дает точность 75% это линия состояния полином дает точность 85% из-за кривой

Похожие вопросы:

Я пытаюсь построить нейронную сеть для изучения одной проблемы с непрерывной выходной переменной. Схематическое представление используемой нейронной сети описано ниже Схематическое представление.

Следуя классу машинного обучения Coursera, я хотел проверить то, что я узнал на другом наборе данных, и построить кривую обучения для разных алгоритмов. Я (совершенно случайно) выбрал набор данных.

Что означает Naive Байес в машинном обучении?

Я новичок в машинном обучении, может ли кто-нибудь помочь мне найти основное различие между классификацией и регрессией в машинном обучении ?

Что подразумевается под активационной функцией в машинном обучении. Я просматриваю большинство статей и видео, каждый утверждает или сравнивает это с нейронной сетью. Я новичок в машинном обучении и.

Что же такое кривая обучения? И почему неправильно использовать термин steep learning curve для чего-то, что имеет высокие барьеры входа и требует довольно много времени, чтобы войти? Зачем-ности.

Что такое индуктивный уклон в машинном обучении? А зачем это нужно?

Я прочитал [PCA documentation] ( http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html ) scikit-learn. [. ] повысить прогнозную точность нижестоящих оценок [. ] Каково.

Я начинающий ученик машинного обучения и запутался в настройке. Какова цель настройки в машинном обучении? Чтобы выбрать лучшие параметры для алгоритма? Как работает тюнинг?

Я пытаюсь выяснить, как применять тестовую разработку (TDD) в задачах машинного обучения. Все, что я знаю, это то, что в машинном обучении вам нужно: Тренируйтесь с использованием набора обучающих.

Кривые обучения машинное обучение

27118 просмотра

8 ответа

13564 Репутация автора

Я хочу знать, что такое кривая обучения в машинном обучении. Каков стандартный способ ее построения? Я имею в виду, что должно быть осями X и Y моего графика?

Ответы (8)

14 плюса

41633 Репутация автора

Некоторые люди используют «кривую обучения» для обозначения ошибки итерационной процедуры как функции от числа итераций, т. Е. Она иллюстрирует сходимость некоторой функции полезности. В приведенном ниже примере я изображаю среднеквадратичную ошибку (MSE) алгоритма наименьшего среднего квадрата (LMS) как функцию числа итераций. Это показывает, как быстро LMS «изучает», в этом случае, импульсную характеристику канала.

41 плюса

117072 Репутация автора

Обычно это относится к графику точности / ошибки прогнозирования в зависимости от размера обучающего набора (т. Е. Насколько лучше модель прогнозирует цель по мере увеличения числа экземпляров, используемых для ее обучения).

Обычно как результаты обучения, так и результаты тестирования / валидации строятся вместе, поэтому мы можем диагностировать компромисс между отклонениями (то есть определить, выиграем ли мы от добавления дополнительных данных обучения и оценить сложность модели, контролируя регуляризацию или количество функций).

Автор: Amro Размещён: 07.01.2011 02:45

7 плюса

119 Репутация автора

По сути, кривая машинного обучения позволяет вам найти точку, с которой алгоритм начинает учиться. Если вы берете кривую, а затем нарезаете тангенс угла наклона для производной в точке, когда она начинает достигать постоянной, то тогда, когда она начинает строить свои способности к обучению.

В зависимости от того, как отображаются ваши оси x и y, одна из ваших осей начнет приближаться к постоянному значению, в то время как значения другой оси будут увеличиваться. Это когда вы начинаете видеть некоторое обучение. Вся кривая в значительной степени позволяет вам измерить скорость, с которой ваш алгоритм способен учиться. Максимальная точка обычно, когда наклон начинает отступать. Вы можете принять ряд производных мер к максимальному / минимальному баллу.

Таким образом, из приведенных примеров видно, что кривая постепенно стремится к постоянному значению. Изначально он начинает использовать свое обучение на примерах обучения, и наклон расширяется в точке максимума / минимума, где он стремится все ближе и ближе приближаться к постоянному состоянию. На этом этапе он может выбрать новые примеры из тестовых данных и найти новые и уникальные результаты из данных. У вас были бы такие меры оси x / y для эпох против ошибки.

Автор: meme Размещён: 29.05.2011 03:49

29 плюса

7576 Репутация автора

Я просто хочу оставить краткую заметку по этому старому вопросу, чтобы указать, что кривая обучения и кривая ROC не являются синонимами.

Как указано в других ответах на этот вопрос, кривая обучения традиционно отображает улучшение производительности по вертикальной оси, когда есть изменения в другом параметре (по горизонтальной оси), таком как размер обучающего набора (в машинном обучении) или итерация / время (как в машинном, так и в биологическом обучении). Одним из важных моментов является то, что многие параметры модели меняются в разных точках на графике. Другие ответы здесь проделали большую работу, иллюстрируя кривые обучения.

(Существует также другое значение кривой обучения в промышленном производстве, возникшее из наблюдения, сделанного в 1930-х годах, что количество рабочих часов, необходимых для производства отдельной единицы, уменьшается с одинаковой скоростью, так как количество произведенных единиц удваивается. актуально, но стоит отметить полноту и избежать путаницы в веб-поиске.)

Напротив, кривая рабочих характеристик приемника или кривая ROC не показывает обучения; это показывает производительность. Кривая ROC — это графическое представление производительности классификатора, которое показывает компромисс между увеличением истинно положительных показателей (по вертикальной оси) и увеличением ложно положительных показателей (по горизонтальной оси) при изменении порога дискриминации классификатора. Таким образом, только один параметр (порог принятия решения / дискриминации), связанный с моделью, изменяется в разных точках графика. Эта кривая ROC ( из Википедии ) показывает производительность трех разных классификаторов.

Читать еще:  Администратор соц сетей обучение

Здесь не показано обучение, а скорее производительность в отношении двух разных классов успеха / ошибки, поскольку порог принятия решения классификатором сделан более снисходительным / строгим. Глядя на область под кривой, мы видим общее представление о способности классификатора различать классы. Этот показатель площади под кривой не зависит от количества членов в двух классах, поэтому он может не отражать фактическую производительность, если членство в классе несбалансировано. Кривая ROC имеет много субтитров, и заинтересованные читатели могут проверить:

2 плюса

1893 Репутация автора

Как вы можете определить для данной модели, будут ли полезны дополнительные тренировочные очки? Полезной диагностикой для этого являются кривые обучения.

• График точности / ошибки прогнозирования в зависимости от размера обучающего набора (т. Е. Насколько лучше модель прогнозирует цель по мере увеличения числа экземпляров, используемых для ее обучения)

• Кривая обучения традиционно отображает улучшение производительности на вертикальной оси, когда происходят изменения в другом параметре (на горизонтальной оси), таком как размер обучающего набора (в машинном обучении) или итерация / время

• Кривая обучения часто полезна для построения графика алгоритмического контроля или улучшения производительности

• Изучение графика кривой может помочь диагностировать проблемы, от которых будет страдать ваш алгоритм

Лично две ссылки ниже помогли мне лучше понять эту концепцию

-1 плюса

25 Репутация автора

Пример X = уровень y = зарплата

XY 0 2000 2 4000 4 6000 6 8000

Регрессия дает точность 75%, это полиномиальная линия состояния дает точность 85% из-за кривой

2 плюса

31 Репутация автора

В классе машинного обучения Эндрю кривая обучения представляет собой график зависимости ошибки обучения / перекрестной проверки от размера выборки. Кривая обучения может использоваться для определения того, имеет ли модель высокое смещение или высокую дисперсию. Если модель страдает от проблемы высокого смещения, так как размер выборки увеличивается, ошибка обучения будет увеличиваться, и ошибка перекрестной проверки будет уменьшаться, и, наконец, они будут очень близки друг к другу, но все еще с высокой частотой ошибок как для обучения, так и для ошибки классификации , И увеличение размера выборки мало поможет для проблемы высокого смещения.

Если модель страдает от высокой дисперсии, так как продолжает увеличиваться размер выборки, ошибка обучения будет продолжать расти, а ошибка перекрестной проверки будет уменьшаться, и они будут приводить к низкой частоте ошибок обучения и перекрестной проверки. Таким образом, большее количество выборок поможет улучшить производительность прогнозирования модели, если модель страдает от высокой дисперсии.

Профессия Data Scientist: машинное обучение

Вы научитесь создавать аналитические системы и использовать алгоритмы машинного обучения, освоите работу с нейросетями. Наполните портфолио и получите престижную профессию.

Записаться на курс

  • Длительность 13 месяцев
  • Помощь в трудоустройстве
  • 7 курсов в одной программе
  • Доступ к курсу навсегда

На рынке не хватает специалистов по Data Science

  • 2 300 компаний сейчас ищут специалистов в Data Science & Machine Learning
  • 80 000 рублей зарплата начинающего специалиста

Данные сайта hh.ru

Кому подойдёт этот курс

Новичкам в IT

Вы получите базовые навыки по аналитике, статистике и математике, которые откроют путь к карьере в Data Science и Machine Learning.

Программистам

Вы прокачаете свои знания и навыки в программировании на Python. Научитесь использовать алгоритмы машинного обучения, решать бизнес-задачи — и усилите портфолио мощными проектами.

Менеджерам и владельцам бизнеса

Научитесь использовать данные для построения прогнозов и оптимизации бизнес-процессов и переведёте компанию на новый уровень.

Чему вы научитесь

Программировать на Python

Визуализировать данные

Работать с библиотеками и базами данных

Применять нейронные сети для решения реальных задач

Строить модели машинного обучения

Писать рекомендательные системы

От первого урока к работе мечты

Студенты и выпускники Skillbox получают индивидуальную поддержку от Центра карьеры на протяжении всего обучения — от помощи с выбором профессии до выхода на работу мечты. Вот как это происходит.

С каждым уроком ваш профессиональный уровень растёт и вы можете планировать карьеру уже во время обучения.

Реакция потенциального работодателя зависит от того, как вы подаёте себя в резюме. Мы дадим советы по его составлению и поможем написать резюме, подающее вас лучшим образом.

Выбираете лучшую вакансию

Мы экономим ваше время — подбираем подходящие вакансии и договариваемся об интервью с работодателем. Вам нужно только пройти собеседование.

Начинаете карьеру мечты

Вы успешно проходите собеседование, выходите на работу и сразу начинаете выполнять задачи.

Записаться на курс или получить бесплатную консультацию

Похоже произошла ошибка. Попробуйте отправить снова или перезагрузите страницу.

Ваша заявка успешно отправлена

Как проходит обучение

Изучаете тему

В курсе — практические видеоуроки.

Выполняете задания

В том темпе, в котором вам удобно.

Работаете с наставником

Закрепляете знания и исправляете ошибки.

Защищаете дипломную работу

И дополняете ею своё портфолио.

Программа

Вас ждут 7 курсов с разным уровнем сложности, знание которых можно приравнять к году работы.

  1. Аналитика. Начальный уровень
  1. Введение.
  2. Основы Python: базовые структуры данных.
  3. Основы Python: циклы и условия.
  4. Основы Python: функции.
  5. Основы Python: классы и объекты.
  6. Основы Python: исключения.
  7. Библиотека NumPy. Часть 1.
  8. Библиотека NumPy. Часть 2.
  9. Библиотека pandas. Часть 1.
  10. Библиотека pandas. Часть 2.
  11. Визуализация данных с помощью matplotlib.
  12. Чтение и запись данных.
  13. Введение в SQL.
  14. Работа со строками.
  1. Основы статистики и теории вероятностей.
  1. Основные концепции Machine Learning (ML).
  2. Жизненный цикл ML-проекта.
  3. Регрессия.
  4. Классификация.
  5. Кластеризация
  6. Дополнительные техники.
  7. Знакомство с Kaggle.
  1. Базовые математические объекты и SymPy. Дроби и преобразования.
  2. Базовые математические объекты и SymPy. Необходимые функции и некоторые дополнительные объекты.
  3. Функции одной переменной, их свойства и графики.
  4. Интерполяция и полиномы.
  5. Аппроксимация и преобразования функций.
  6. Функции нескольких переменных, их свойства и графики.
  7. Линейные функции.
  8. Матрицы и координаты.
  9. Линейные уравнения.
  10. Производная функции одной переменной.
  11. Производная по направлению и градиент + частные производные.
  12. Линейная регрессия.
  13. Собственные векторы и значения. Определитель.
  14. Разложения матриц.
  1. Введение в нейронные сети.
  2. Обучение нейронных сетей.
  3. Нейронные сети на практике.
  4. Свёрточные нейросети для задачи классификации изображений.
  5. Семантическая сегментация. Часть 1. Слабая локализация и полносвёрточные нейросети (FCN).
  6. Семантическая сегментация. Часть 2. Продвинутые архитектуры FCN для семантической сегментации.
  7. Детектирование объектов.
  8. От дискриминативных моделей к генеративным. Style transfer.
  9. Генеративные состязательные сети.
  10. Введение в NLP.
  11. NLP на нейросетях. Рекуррентные нейросети, классификация текстов.
  12. NLP на нейросетях. Языковые модели, Attention, Transformer.
  13. Обучение с подкреплением. Q-Learning.
  14. Обучение с подкреплением. Deep Q-Learning.
  15. Ускорение и оптимизация нейронных сетей.
  16. Внедрение в DL моделей в Production.
  17. Рекомендательные системы.
  18. Вывод моделей машинного обучения в production, post production и мониторинг.
  1. Как стать первоклассным программистом.
  2. Как искать заказы на разработку.
  3. Личный бренд разработчика.
  4. Photoshop для программиста.
  5. Вёрстка email-рассылок. Советы на реальных примерах.
  6. The state of soft skills.
  7. Как мы создавали карту развития для разработчиков.
  8. Как общаться по email и эффективно работать с почтой.
  9. Повышение своей эффективности.
  10. Спор о первом языке программирования.
  11. Саморазвитие: как я не усидел на двух стульях и нашёл третий.
  12. Data-driven подход к продуктивности — инсайты из данных миллиона людей.
  1. IT Resume and CV.
  2. Job interview: questions and answers.
  3. Teamwork.
  4. Workplace communication.
  5. Business letter.
  6. Software development.
  7. System concept development and SRS.
  8. Design.
  9. Development and Testing.
  10. Deployment and Maintenance.

Уже учились на каком-то курсе из программы?

Скажите об этом менеджеру — за этот курс платить не придётся!

Получить полную программу курса и консультацию

Похоже произошла ошибка. Попробуйте отправить снова или перезагрузите страницу.

Ссылка на основную публикацию
Adblock
detector