Openbravo-rus.ru

Образование по русски
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Классификация методов машинного обучения

Machine Learning

Machine learning — множество математических, статистических и вычислительных методов для разработки алгоритмов, способных решить задачу не прямым способом, а на основе поиска закономерностей в разнообразных входных данных.

Что такое Machine Learning

Общий термин «Machine Learning» или «машинное обучение» обозначает множество математических, статистических и вычислительных методов для разработки алгоритмов, способных решить задачу не прямым способом, а на основе поиска закономерностей в разнообразных входных данных [1]. Решение вычисляется не по четкой формуле, а по установленной зависимости результатов от конкретного набора признаков и их значений. Например, если каждый день в течении недели земля покрыта снегом и температура воздуха существенно ниже нуля, то вероятнее всего, наступила зима. Поэтому машинное обучение применяется для диагностики, прогнозирования, распознавания и принятия решений в различных прикладных сферах: от медицины до банковской деятельности.

Типы и суть Machine Learning

Выделяют 2 типа машинного обучения [1]:

  1. Индуктивное или по прецедентам, которое основано на выявлении эмпирических закономерностей во входных данных;
  2. Дедуктивное, которое предполагает формализацию знаний экспертов и их перенос в цифровую форму в виде базы знаний.

Дедуктивный тип принято относить к области экспертных систем, поэтому общий термин «машинное обучение» означает обучение по прецедентам. Прецеденты или обучающая выборка – это наборы входных объектов и соответствующих им результатов. При этом не существует четкой формулы, которая аналитически описывает зависимость между результатами и входами. Например, какая погода будет завтра, если на протяжении недели дни были морозные, солнечные, с низкой влажностью воздуха, без ветра и осадков? При этом следует учесть еще множество параметров: географические координаты, рельеф местности, движение теплых и холодных фронтов воздуха и пр. Необходимо построить алгоритм, который выдаст достаточно точный результат для любого возможного входа. Точность результатов регулируется оценочным функционалом качества. Таким образом, решение формируется эмпирически, на основе анализа накопленного опыта. При этом обучаемая система должна быть способна к обобщению – адекватному отклику на данные, выходящие за пределы имеющейся обучающей выборки. На практике входные данные могут быть неполными, неточными и разнородными. Поэтому существует множество методов машинного обучения [2]. Можно сказать, что машинное обучение реализует подход Case Based Reasoning (CBR) — метод решения проблем рассуждением по аналогии, путем предположения на основе подобных случаев (прецедентов).

Суть и смысл машинного обучения (Machine Learning)

Методы Machine Learning

Существует множество методов машинного обучения. Мы перечислим самые популярные, оставив их подробную классификацию специализированным ресурсам [1, 2, 3]. Выделяют 2 вида классического Machine Learning:

  1. С учителем (supervised learning), когда необходимо найти функциональную зависимость результатов от входов и построить алгоритм, на входе принимающий описание объекта и на выходе выдающий ответ. Функционал качества, как правило, определяется через среднюю ошибку ответов алгоритма по всем объектам выборки. К обучению с учителем относятся задачи классификации, регрессии, ранжирования и прогнозирования.
  2. Без учителя (unsupervised learning), когда ответы не задаются, и нужно искать зависимости между объектами. Сюда входят задачи кластеризации, поиска ассоциативных правил, фильтрации выбросов, построения доверительной области, сокращения размерности и заполнения пропущенных значений.

К неклассическим, но весьма популярным методам относят обучение с подкреплением, в частности, генетические алгоритмы, и искусственные нейронные сети. В качестве входных объектов выступают пары «ситуация, принятое решение», а ответами являются значения функционала качества, который характеризует правильность принятых решений (реакцию среды). Эти методы успешно применяются для формирования инвестиционных стратегий, автоматического управления технологическими процессами, самообучения роботов и других подобных задач [2].

Ниже на рисунке показана классификация наиболее часто используемых методов Machine Learning [3].

Классификация методов Machine Learning [3]

Средства реализации Machine Learning

Сегодня чаще всего для создания программ машинного обучения используются языки R, Python, Scala и Julia [4]. Они поддерживаются многими интегрированными средами разработки, в частности, R-Studio, R-Brain, Visual Studio, Eclipse, PyCharm, Spyder, IntelliJ IDEA, Jupyter Notebooks, Juno и др. [4]. На наших практических курсах мы научим вас успешной работе с этими инструментами, чтобы потом вы могли самостоятельно формировать наборы входных данных, строить эффективные алгоритмы для решения прикладных задач своей области: от нефтегазовой промышленности до биржевой аналитики. Выбирайте свой обучающий интенсив и приходите к нам на занятия!

Как выбрать модель машинного обучения

Для начала рассмотрим некоторые руководящие принципы, которые используются при создании моделей:

  • Сбор данных (обычно в больших количествах).
  • Установление цели, гипотезы для проверки и сроков для достижения.
  • Проверка на наличие аномалий или выбросов.
  • Поиск недостающих данных.
  • Очистка данных на основе ограничений, целей и тестирования гипотез.
  • Выполнение статистического анализа и начальной визуализации.
  • Масштабирование, регуляризация, нормализация, разработка функций, случайная выборка и проверка данных для подготовки модели.
  • Обучение и тестирование данных.
  • Создание моделей на основе показателей классификации/регрессии для обучения с учителем или без него.
  • Установление базовой точности и проверка точности текущей модели на данных для обучения и тестирования.
  • Повторная проверка решения проблемы и полученных результатов.
  • Подготовка модели для развертывания и поставки продукта (AWS, Docker, Buckets, App, веб-сайт, ПО, Flask и т. д.).

Задачи машинного обучения подразделяются на обучение с учителем, без учителя, с частичным привлечением учителя и с подкреплением.

В процессе обучения с частичным привлечением учителя используются немаркированные данные для улучшения понимания структуры в целом. Другими словами, мы изучаем особенности только на основе небольшого набора для обучения, потому что он маркирован! Мы не используем преимущества тестового набора, содержащего множество ценной информации, из-за отсутствия маркировки. В результате нам необходимо найти способ обучения на основе большого количества немаркированных данных.

Обучение с подкреплением — это принятие подходящих мер для максимизации выгоды в определенной ситуации. Машина или робот обучаются, пробуя все возможные пути, а затем выбирают тот, который дает наибольшую выгоду с наименьшими трудностями.

Подходы

Ниже приведены подходы к выбору модели для решения задач машинного обучения/глубокого обучения:

  1. Несбалансированные данные достаточно распространены.

Обработку несбалансированных данных можно осуществить с помощью ресамплинга — использования выборки данных для повышения точности и подсчета погрешностей параметра совокупности. Методы ресамплинга используют технику вложенного ресамплинга.

Мы разделяем исходные данные на наборы для обучения и тестирования. После нахождения подходящих коэффициентов для модели с помощью первого набора мы применяем эту модель ко второму набору, чтобы обнаружить точность модели. Эта финальная точность, полученная перед применением ее к неизвестным данным, также называется набором для проверки и обеспечивает возможность получения более точных результатов.

Однако при дополнительном разделении набора для обучения на поднаборы и расчете их финальной точности, а затем многократного повторения этого процесса для множества поднаборов, можно добиться максимальной точности! Ресамплинг выполняется для повышения точности модели и разделяется на несколько способов, таких как начальная загрузка, перекрестная проверка, многократная перекрестная проверка и т. д.

2. Мы можем создавать новые функции с помощью метода главных компонент.

Этот метод также известен как PCA и помогает уменьшить размерность. Методы кластеризации очень распространены при обучении без учителя.

3. Мы можем предотвратить переобучение, недостаточное обучение, выбросы и шум с помощью методов регуляризации.

4. Нам необходимо устранить проблему «черного ящика».

Для решения этой проблемы стоит рассмотреть стратегии для построения интерпретируемых моделей. Системы ИИ «черного ящика» для автоматического принятия решений в большинстве случаев основаны на машинном обучении на больших данных, отображающих функции пользователя в класс, который предсказывает поведенческие черты личности без объяснения причин.

Проблема заключается не только в отсутствии прозрачности, но и в возможном возникновении погрешностей, унаследованных алгоритмами от человеческих предрассудков, и сборе артефактов, скрытых в данных обучения, которые могут привести к неправильным решениям и неправильному анализу.

Читать еще:  Глубокое обучение торрент

5. Понимание алгоритмов, не восприимчивых к выбросам.

Чтобы преодолеть отклонение от нормы, можно использовать произвольность в моделях или случайные леса.

Модели машинного обучения

  1. Первый подход к предсказанию постоянных значений: линейная регрессия — наиболее распространенный выбор, например, при предсказании стоимости жилья.
  2. Подходы бинарной классификации обычно схожи с моделями логистической регрессии. При возникновении проблемы классификации с двумя классами методы опорных векторов (SVM) — отличный способ получения наилучшего результата!
  3. Мультиклассовая классификация: случайные леса — предпочтительный выбор, однако SVM обладают схожими преимуществами. Случайные леса больше предназначены для мультикласса!

Для мультикласса нужно разбить данные на несколько задач бинарной классификации. Случайные леса отлично подходят для работы с несколькими числовыми и категориальными признаками, даже если они обладают различными масштабами. Это означает, что вы можете работать с исходными данными. SVM максимизируют отступ и основываются на концепции расстояния между различными точками. Остается только решить, действительно ли расстояние имеет значение!

В результате для категориальных признаков необходимо использовать единый код. Кроме того, в качестве предварительной обработки рекомендуется применять min-max или другое масштабирование. Для наиболее распространенных задач классификации случайные леса предоставляют вероятность принадлежности к этому классу, в то время как SVM предоставляют расстояние до границы, которую все же нужно преобразовать при необходимости в вероятность. SVM предоставляют опорные вектора — точки в каждом ближайшем к границе классе.

4. Деревья решений просты в использовании и понимании. Они реализуются с помощью таких моделей, как случайные леса или градиентный бустинг.

5. Для соревнований Kaggle предпочтительны случайный лес и XGBoost!

Модели глубокого обучения

Глубокое обучение — это функция ИИ, которая имитирует работу человеческого мозга при обработке данных и создании шаблонов для использования в принятии решений.

Мы можем использовать многослойные персептроны, чтобы сосредоточиться на сложных в определении признаках, которые содержат большое количество маркированных данных!

Многослойный персептрон (MLP) — это искусственная нейронная сеть с прямой связью, которая генерирует набор выходных данных из набора входных. MLP характеризуется несколькими слоями входных узлов, связанных как ориентированный граф между входным и выходным слоями.

Для машинного обучения на основе зрения, такого как классификация изображений, обнаружение объектов, сегментация или распознавание изображений, используется сверточная нейронная сеть (CNN). CNN используются в распознавании и обработке изображений, которые предназначены для обработки пиксельных данных.

Для задач моделирования последовательности, таких как языковой перевод или классификация текста, предпочтительны рекуррентные нейронные сети (RNN).

RNN созданы для моделей, которые нуждаются в контексте, чтобы предоставить выходные данные на основе входных. В некоторых случаях контекст играет решающую роль для предсказания наиболее подходящего результата. В других нейронных сетях все входные данные независимы друг от друга.

Гид по структуре машинного обучения

Контент-маркетолог Мария Пушикова специально для блога Нетологии перевела статью Charles-Antoine Richard о том, что такое машинное обучение и какие методы машинного обучения существуют.

Совсем недавно мы обсуждали необходимость использования методов машинного обучения в бизнесе. Это подтолкнуло меня изучить основы методов машинного обучения, во время чего я сознал: большая имеющейся часть информации направлена на разработчиков или специалистов по Big Data.

Поэтому я решил, что читателям будет интересно прочесть объяснение методов машинного обучения от человека нетехнической специальности.

Машинное обучение — это…

Вот самое простое определение, которое я нашел:

Машинное обучение — это «[…] класс методов искусственного интеллекта, которые позволяют улучшить результаты работы компьютеров путем обучения на известных данных», — Berkeley.

Теперь давайте разложим все по полочкам, чтобы выстроить основы знаний в области машинного обучения.

…подраздел искусственного интеллекта (ИИ)

ИИ — это наука и технология по разработке мероприятий и методов, позволяющих компьютерам успешно выполнять задачи, которые обычно требуют интеллектуального осмысления человека. Машинное обучение — часть этого процесса: это методы и технологии, с помощью которых можно обучит компьютер выполнять поставленные задачи.

…способ решения практических задач

Методы машинного обучения все еще в развитии. Некоторые уже изучены и используются (рассмотрим дальше), но ожидается, что со временем их количество будет только расти. Идея в том, что совершенно разные методы используются для совершенно разных компьютеров, а различные бизнес-задачи требуют различных методов машинного обучения.

… способ увеличить эффективность компьютеров

Для решения компьютером задач с применением искусственного интеллекта нужны практика и автоматическая поднастройка. Модель машинного обучения нуждается в тренировке с использованием базы данных и в большинстве ситуаций — в подсказке человека.

…технология, основанная на опыте

ИИ нуждается в предоставлении опыта — иными словами, ему необходимы данные. Чем больше в систему ИИ поступает данных, тем точнее компьютер взаимодействует с ними, а также с теми данными, что получает в дальнейшем. Чем выше точность взаимодействия, тем успешнее будет выполнение поставленной задачи, и выше степень прогностической точности.

Простой пример:

  1. Выбираются входные данные и задаются условия ввода (например, банковские операции с использованием карт).
  2. Строится алгоритм машинного обучения и настраивается на конкретную задачу (например, выявлять мошеннические транзакции).
  3. Используемые в ходе обучения данные дополняются желаемой выходной информацией (например, эти транзакции — мошеннические, а эти нет).

Как работает машинное обучение

Машинное обучение часто называют волшебным или черным ящиком:

Вводишь данные → «волшебный черный ящик» → Миссия выполнена.

Давайте посмотрим на сам процесс обучения, чтобы лучше понять, как машинное обучение справляется с данными.

Машинное обучение основывается на данных. Первый шаг — убедиться, что имеющиеся данные верны и относятся именно к той задаче, которую вы пытаетесь решить. Оцените свои возможности для сбора данных, обдумайте их источник, необходимый формат и т. д.

Очистка

Данные зачастую формируются из различных источников, отображаются в различных форматах и языках. Соответственно, среди них могут оказаться нерелевантные или ненужные значения, которые потребуется удалить. И наоборот, каких-то данных может не хватать, и потребуется их добавить. От правильной подготовки базы данных прямым образом зависит и пригодность к использованию, и достоверность результатов.

Разделение

В зависимости от размера набора данных в некоторых случаях может потребоваться только небольшая их часть. Обычно это называется выборкой. Из выбранной части данные надо разделить на две группы: одна для использования алгоритмом, а другая для оценки его действий.

Обучение

Этот этап фактически направлен на поиск математической функции, которая точно выполнит указанную задачу. Обучение разнится в зависимости от типа используемой модели. Построение линий в простой линейной модели — это обучение; генерация дерева принятия решений для алгоритма случайного леса — это также обучение. Изменение ответов при построении дерева решений поможет скорректировать алгоритм.

Чтобы было проще, сосредоточимся на нейронных сетях.

Суть в том, что алгоритм использует часть данных, обрабатывает их, замеряет эффективность обработки и автоматически регулирует свои параметры (также называемый метод обратного распространения ошибки) до тех пор, пока не сможет последовательно производить желаемый результат с достаточной достоверностью.

Оценка

После того как алгоритм хорошо показал себя на учебных данных, его эффективность оценивается на данных, с которыми он еще не сталкивался. Дополнительная корректировка производится при необходимости. Этот процесс позволяет предотвратить переобучение — явление, при котором алгоритм хорошо работает только на учебных данных.

Оптимизация

Модель оптимизируется, чтобы при интеграции в приложение весить как можно меньше и как можно быстрее работать.

Какие существуют типы машинного обучения и чем они отличаются

Существует множество моделей для машинного обучения, но они, как правило, относятся к одному из трех типов:

  • обучение с учителем (supervised learning);
  • обучение без учителя, или самообучение (unsupervised learning);
  • обучение с подкреплением (reinforcement learning).
Читать еще:  Smm вконтакте обучение

В зависимости от выполняемой задачи, одни модели могут быть более подходящими и более эффективными, чем другие.

Обучение с учителем (supervised learning)

В этом типе корректный результат при обучении модели явно обозначается для каждого идентифицируемого элемента в наборе данных. Это означает, что при считывании данных у алгоритма уже есть правильный ответ. Поэтому вместо поисков ответа он стремится найти связи, чтобы в дальнейшем, при введении необозначенных данных, получались правильные классификация или прогноз.

В контексте классификации алгоритм обучения может, например, снабжаться историей транзакций по кредитным картам, каждая из которых помечена как безопасная или подозрительная. Он должен изучить отношения между этими двумя классификациями, чтобы затем суметь соответствующим образом маркировать новые операции в зависимости от параметров классификации (например, место покупки, время между операциями и т. д.).

В случае когда данные непрерывно связаны друг с другом, как, например, изменение курса акций во времени, регрессионный алгоритм обучения может использоваться для прогнозирования следующего значения в наборе данных.

Обучение без учителя (unsupervised learning)

В этом случае у алгоритма в процессе обучения нет заранее установленных ответов. Его цель — найти смысловые связи между отдельными данными, выявить шаблоны и закономерности. Например, кластеризация — это использование неконтролируемого обучения в рекомендательных системах (например, люди, которым понравилась эта бутылка вина, также положительно оценили вот эту).

Обучение с подкреплением

Этот тип обучения представляет собой смесь первых двух. Обычно он используется для решения более сложных задач и требует взаимодействия с окружающей средой. Данные предоставляются средой и позволяют алгоритму реагировать и учиться.

Область применения такого метода обширна: от контроля роботизированных рук и поиска наиболее эффективной комбинации движений, до разработки систем навигации роботов, где поведенческий алгоритм «избежать столкновения» обучается опытным путем, получая обратную связь при столкновении с препятствием.

Логические игры также хорошо подходят для обучения с подкреплением, так как они традиционно содержат логическую цепочку решений: например, покер, нарды и го, в которую недавно выиграл AlphaGo от Google. Этот метод обучения также часто применяется в логистике, составлении графиков и тактическом планировании задач.

Для чего можно использовать машинное обучение

В бизнесе можно рассматривать три сферы применения машинного обучения: описательную, прогнозирующую и нормативную.

Описательное применение относится к записи и анализу статистических данных для расширения возможностей бизнес-аналитики. Руководители получают описание и максимально информативный анализ результатов и последствий прошлых действий и решений. Этот процесс в настоящее время обычен для большинства крупных компаний по всему миру — например, анализ продаж и рекламных проектов для определения их результатов и рентабельности.

Второе применение машинного обучения — прогнозирование. Сбор данных и их использование для прогнозирования конкретного результата позволяет повысить скорость реакции и быстрее принимать верные решения. Например, прогнозирование оттока клиентов может помочь его предотвратить. Сегодня этот процесс применяется в большинстве крупных компаний.

Третье и наиболее продвинутое применение машинного обучения внедряется уже существующими компаниями и совершенствуется усилиями недавно созданных. Простого прогнозирования результатов или поведения уже недостаточно для эффективного ведения бизнеса. Понимание причин, мотивов и окружающей ситуации — вот необходимое условие для принятия оптимального решения. Этот метод наиболее эффективен, если человек и машина объединяют усилия. Машинное обучение используется для поиска значимых зависимостей и прогнозирования результатов, а специалисты по данным интерпретируют результат, чтобы понять, почему такая связь существует. В результате становится возможным принимать более точные и верные решения.

Кроме того, я бы добавил еще одно применение машинного обучения, отличное от прогнозного: автоматизация процессов. Прочесть об этом можно здесь.

Вот несколько примеров задач, которые решает машинное обучение.

Логистика и производство

  • В Rethink Robotics используют машинное обучение для обучения манипуляторов и увеличения скорости производства;
  • В JaybridgeRobotics автоматизируют промышленные транспортные средства промышленного класса для более эффективной работы;
  • В Nanotronics автоматизируют оптические микроскопы для улучшения результатов осмотра;
  • Netflix и Amazon оптимизируют распределение ресурсов в соответствии с потребностями пользователей;
  • Другие примеры: прогнозирование потребностей ERP/ERM; прогнозирование сбоев и улучшение техобслуживания, улучшение контроля качества и увеличение мощности производственной линии.

Продажи и маркетинг

  • 6sense прогнозирует, какой лид и в какое время наиболее склонен к покупке;
  • Salesforce Einstein помогает предвидеть возможности для продаж и автоматизировать задачи;
  • Fusemachines автоматизирует планы продаж с помощью AI;
  • AirPR предлагает пути повышения эффективности PR;
  • Retention Science предлагает кросс-канальное вовлечение;
  • Другие примеры: прогнозирование стоимости жизненного цикла клиента, повышение точности сегментации клиентов, выявление клиентских моделей покупок, и оптимизация опыта пользователя в приложениях.

Кадры

  • Entelo помогает рекрутерам находить и отбирать кандидатов;
  • HiQ помогает менеджерам в управлении талантами.

Финансы

  • Cerebellum Capital and Sentient используют машинное обучение для улучшения процесса принятия инвестиционных решений;
  • Dataminr может помочь с текущими финансовыми решениями, заранее оповещая о социальных тенденциях и последних новостях;
  • Другие примеры: выявление случаев мошенничества и прогнозирование цен на акции.

Здравоохранение

  • Atomwise использует прогнозные модели для уменьшения времени производства лекарств;
  • Deep6 Analytics определяет подходящих пациентов для клинических испытаний;
  • Другие примеры: более точная диагностика заболеваний, улучшение персонализированного ухода и оценка рисков для здоровья.

Больше примеров использования машинного обучения, искусственного интеллекта и других связанных с ними ресурсов вы найдете в списке, созданном Sam DeBrule.

Вместо заключения

Помните, что совместное использование разных систем и методик — ключ к успеху. ИИ и машинное обучение хоть и сложны, но увлекательны. Буду рад продолжить обсуждение стратегий разработки и проектирования с использованием больших данных вместе с вами. Комментируйте и задавайте вопросы.

Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации.

Тезаурус: Машинное обучение

Базовые понятия, объясняющие задачи машинного обучения и принципы работы искусственных нейронных сетей

Машинное обучение

Это математическая дисциплина, в рамках которой решается задача поиска закономерностей в эмпирических данных; на основе найденных закономерностей алгоритм может делать определенные прогнозы. Машинное обучение можно отнести к методам искусственного интеллекта, так как оно не решает задачу напрямую, а обучается применять решение для множества схожих задач. В машинном обучении используются средства теории вероятности, теории графов, математической статистики и других областей математики и Computer Science.

Big Data (большие данные)

У понятия «большие данные» нет однозначного определения, но наиболее устоявшимся является то, из которого следует, что это совокупность определенных технологий. Эти технологии призваны обрабатывать значительно большее по сравнению со стандартными сценариями объемы данных (под данными подразумевается множество объектов и множество соответствующих им ответов (откликов)). Кроме того, они должны работать с этими поступающими в большом количестве данными быстро, а также обрабатывать как структурированные, так и плохо структурированные данные.

Искусственные нейронные сети

Искусственные нейронные сети — это модели машинного обучения, использующие комбинации распределенных простых операций, зависящих от обучаемых параметров, для обработки входных данных. Некоторые элементы и принципы устройства искусственных нейросетей напоминают элементы и принципы устройства биологических нейросетей. Искусственные нейронные сети активно применяются в задачах прогнозирования, распознавания образов, генерации текстов и многих других. Современные искусственные нейронные сети зачастую зависят от большого количества параметров, обучаемых на больших выборках данных (см. глубинное обучение). Наиболее популярными и успешными видами ИНС являются сверточные сети и рекуррентные нейросети.

Сверточные сети

Сверточные сети — один из видов искусственных нейронных сетей, широко используемый в распознавании образов, компьютерном зрении, обработке аудиосигналов, анализе смысла текстов и играх, например Го. Характерной особенностью сверточных нейросетей является использование представления данных в виде набора изображений (карт) и применение локальных операций-сверток, модифицирующих и комбинирующих данные карты друг с другом.

Читать еще:  Обучение джава скрипт

Глубинное обучение

Глубинное обучение — это алгоритмы машинного обучения, связанные с искусственными нейронными сетями, вычисления в которых подразумевают применение множества обучаемых операций (слоев) к входным данным. Характерным для глубинного обучения является обучение на больших выборках при помощи единого оптимизационного алгоритма. Типичные алгоритмы оптимизации настраивают параметры всех операций одновременно и эффективно оценивают влияние каждого параметра нейросети на ошибку (с помощью так называемого метода обратного распространения).

Переобучение

Переобучение происходит, когда построенная модель дает хорошие результаты на обучающей выборке, но делает много ошибок на тестовой выборке. Иначе говоря, программа начинает находить несуществующие связи и закономерности.

Компьютерное зрение

Компьютерное зрение — область наук о данных, нацеленная на извлечение информации из изображений. Кроме того, компьютерное зрение занимается построением трехмерных моделей из изображений и распознаванием образов. Компьютерное зрение имеет большое значение для анализа биомедицинских изображений, робототехники и больших данных.

Классификация IP-трафика методами машинного обучения

Рассмотрены задачи, методы и проблемы классификации сетевого трафика методами машинного обучения и интеллектуального анализа данных. Анализируются актуальные вопросы классификации IP-трафика на основе портов, полезной нагрузки, статистических методов. Рассмотрены важные для практического использования вопросы контроля и анализа сетевого трафика. Анализируются особенности формирования, оценки влияния структуры и объема обучающей и тестирующей выборок на эффективность классификации приложений на уровне пакетов и потоков. Рассмотрена контролируемая и неконтролируемая классификация сетевых приложений WEB (http, https), mail (smtp, imap), Ftp (Ftp-data, Ftp-commands), SSH, Skype, BitTorrent, P2P и др. с использованием алгоритмов классификации ID3, C4.5, CART, SVM, Randomforest, Bootstrap, Baggingи AdaBoost и др. Рассмотрены особенности классификации шифрованного трафика и трафика мобильных приложений Skype, Steam, BitTorrent, YouTube, Vkontakte, Tоrrent и др. Анализируется эволюция алгоритмов потоковой классификации сетевых приложений в режиме реального времени. Для повышения эффективности в условиях априорной неопределенности введено понятие неконтролируемой и полуконтролируемой кластеризации сетевого трафика.
Для широкого круга научных сотрудников и специалистов-практиков в области инфокоммуникаций и информационной безопасности, будет полезна аспирантам, магистрам и бакалаврам соответствующих специальностей.
Шелухин Олег Иванович – доктор технических наук, профессор, зав. кафедрой « Информационная безопасность» МТУСИ. Заслуженный деятель науки РФ. Область научных интересов – программная защита информации, машинное обучение, интеллектуальный анализ данных.
Ерохин Сергей Дмитриевич – кандидат технических наук, доцент. Ректор МТУСИ, доцент кафедры « Информационная безопасность» МТУСИ. Область научных интересов – методы машинного обучения, сетевые технологии, информационная безопасность нфокоммуникационных систем.
Ванюшина Анна Вячеславовна – старший преподаватель кафедры «Информационная безопасность» МТУСИ. Область научных интересов – сетевые технологии, машинное обучение, интеллектуальный анализ данных

1. КЛАССИФИКАЦИЯ. ОСНОВНЫЕ ПОНЯТИЯ, ЗАДАЧИ И ПРОБЛЕМЫ
1.1. Задачи классификации IP-трафика
1.2. Методы классификации сетевого трафика
1.2.1. Классификация IP-трафика на основе портов
1.2.2. Классификация сетевого трафика на основе полезной нагрузки
1.2.3. Классификация на основе статистических методов
1.2.4. Особенности применения методов машинного обучения для классификации сетевого трафика
1.2.5. Статистическая кластеризация
1.2.6. Иные подходы
Литература

2. КЛАССИЧЕСКИЕ ПАРАДИГМЫ МАШИННОГО ОБУЧЕНИЯ И ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
2.1. Основные понятия. Технологии KDD и Data Mining
2.2. Классификация. Основы обучения с учителем
2.2.1. Классификация на основе ассоциативных правил
2.2.2. Искусственные нейронные сети (ИНС)
2.2.3. Метод опорных векторов
2.2.4. Решающие деревья
2.2.5. Алгоритм ID3
2.2.6. Алгоритм C4.5
2.2.7. Алгоритм CART
2.2.8. Алгоритм CHAID
2.2.9. Алгоритм QUEST
2.2.10. Алгоритм случайного леса
2.2.11. Алгоритмы Bootstrap, Bagging и AdaBoost
2.2.12. Наивный байесовский классификатор
2.2.13. Байесовские сети
2.2.14. Оценка устойчивости классификатора
2.2.15. Методы поиска аномалий, основанные на классификации
2.3. Кластеризация. Основы обучения с учителем
2.3.1. Основные понятия
2.3.2. Методы кластерного анализа данных
2.3.3. Иерархические методы
2.3.4. Неиерархические методы
2.3.5. Неинкрементальные алгоритмы
2.3.6. Сравнительный анализ методов кластеризации
2.3.7. Самоорганизующаяся карта Кохонена
2.3.8. Генетические алгоритмы
2.3.9. Достоинства и недостатки методов кластеризации
2.3.10. Методы поиска аномалий, основанные на кластеризации
2.4. Метрики оценки эффективности классификации и кластеризации
2.5. Инструменты для интеллектуального анализа данных
2.5.1. Rattle
2.5.2. Weka
2.5.3. MOA
2.5.4. Orange
2.5.5. RapidMiner
2.5.6. Scikitlearn
2.6. Проблемы машинного обучения (контролируемое и неконтролируемое обучение)
Литература

3. АНАЛИЗ И МОНИТОРИНГ СЕТЕВОГО ТРАФИКА
3.1. Проблемы контроля и анализа сетевого трафика
3.1.1. Место контроля трафика
3.1.2. Задачи контроля
3.2. Сетевые анализаторы трафика
3.2.1. Задачи анализа сетевого трафика
3.2.2. Средства анализа сетевого трафика
3.2.3. Программный сниффер Wireshark
3.2.4. Аппаратный сниффер network associates
3.2.5. Iris Network Traffic Analyzer
3.3. Сбор данных с помощью протокола NetFlow
3.3.1. Мониторинг
3.3.2. Примеры контрольных и аналитических инструментов потока сетевого трафика с помощью протокола NetFlow
3.4. Сбор данных с помощью протокола SNMP
3.4.1. Контроль сетевых устройств
3.4.2. Примеры контрольных и аналитических инструментов потока сетевого трафика помощью протокола SNMP
3.5. Программный сниффер Tcpdump
3.6. Другие технологии и подходы к сетевому мониторингу
3.6.1. Трассировка событий сетевого стека
3.6.2. Протокол ICMP
3.6.3. Анализ системных журналов
3.7. Инструменты классификации. Технология DPI
3.7.1. PACE
3.7.2. OpenDPI
3.7.3. nDPI
3.7.4. Libprotoident
3.7.5. Cisco NBAR
3.7.6. L7-фильтр
3.8. Использование инструментов DPI для классификации и учета трафика
3.8.1. Использование инструментов DPI для классификации трафика
3.8.2. Использование инструментов DPI для целей учета трафика
3.8.3. Влияние усечения пакетов и потоков на классификацию трафика
Литература

4. КЛАССИФИКАЦИЯ ТРАФИКА МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ
4.1. Анализ алгоритмов выбора атрибутов классификации
4.2. Формирование исходных данных и анализ программного обеспечения
4.2.1. Методы захвата трафика
4.2.2. Результаты применения программного обеспечения
4.2.3. Выбор атрибутов классификации
4.3. Влияние структуры обучающей выборки на эффективность классификации приложений
4.3.1. Процедура сбора трафика
4.3.2. Обучающие выборки
4.3.3. Выбор атрибутов для классификации
4.3.4. Результаты эксперимента
4.4. Эффективность алгоритмов выделения атрибутов
4.4.1. Формирование исходных данных
4.4.2. Сравнительные оценки алгоритмов выделения информативных признаков
4.4.3. Результаты классификации
4.5. Влияние объема обучающей выборки на качество классификации
4.5.1. Алгоритм SVM
4.5.2. Алгоритм AdaBoost
4.5.3. Классификатор наивный классификатор Байеса
4.5.4. Алгоритм CART
4.5.5. Случайный лес
4.6. Эффективность алгоритма RF в задачах классификации приложений
4.6.1. Формирование данных
4.6.2. Методология решения задачи классификации с помощью алгоритма Random Forest
4.6.3. Результаты классификации
4.7. Классификация трафика мобильных сетей
4.7.1. Захват и анализ сетевого трафика мобильных сетей (приложений)
4.7.2. Результаты классификации
4.8. Влияние прореживания пакетов на качество классификации
4.8.1. Формирование и анализ исходных данных
4.8.2. Результаты классификации
4.9. Влияние фонового трафика на качество классификации
4.9.1. Постановка задачи
4.9.2. Результаты классификации
4.9.3. Сравнительный ROC — анализ работы алгоритмов при наличии фонового трафика
4.10. Классификация шифрованного трафика
4.10.1. Формирование и характеристики используемых наборов данных
4.10.2. Классификация трафика с помощью формирования сетевых потоков
4.10.3. Классификация трафика на основе анализа каждого захваченного сетевого пакета
4.11. Интеграция множества классификаторов
4.11.1. Ансамбли классификаторов
4.11.2. Распространенные типы классификаторов
4.11.3. Мультиклассификационная модель классификации
4.12. Классификация в режиме реального времени
4.12.1. Сценарии обработки потоковых данных
4.12.2. Технология смещения концепций
4.12.3. Эволюция алгоритмов потоковой классификации
4.12.4. Алгоритмы классификации, основанные на потоковых деревьях принятия решений
4.12.5. Динамический потоковый Random Forests
4.13. Неконтролируемая кластеризация сетевого трафика
4.13.1. Технологии кластеризации
4.13.2. Кластеризация методом Random Forest и RF близость
4.13.3. Кластеризация на основе близости RF
4.13.4. Наборы данных
4.13.5. Методы оценки
4.14. Полуконтролируемая кластеризация сетевого трафика
4.14.1. Источники дополнительной информации
4.14.2. Алгоритм кластеризации с ограничениями
4.14.3. Статистика дополнительной информации
4.15. Проблемы классификации трафика
Литература

Ссылка на основную публикацию
Adblock
detector