Основы глубокого обучения

Benachrichtigen, wenn das Buch hinzugefügt wird

Eldar Nasyrovhat Zitat gemachtvor 4 Jahren
На каждом шаге движения перпендикулярно контуру нам нужно решать, как далеко мы хотим зайти, прежде чем заново вычислять направление. Это расстояние зависит от крутизны поверхности. Почему? Чем ближе мы к минимуму, тем короче должны быть шаги. Мы понимаем, что близки к минимуму, поскольку поверхность намного более плоская и крутизну мы используем как индикатор степени близости к этому минимуму. Но если поверхность ошибки рыхлая, процесс может занять много времени. Поэтому часто стоит умножить градиент на масштабирующий коэффициент — темп обучения. Его выбор — сложная задача (рис. 2.4).
- Gefällt mir
- Kommentar
- Teilen
  Facebook
  Twitter
  Link kopieren
- Melden
Eldar Nasyrovhat Zitat gemachtvor 4 Jahren
Эту поверхность удобно визуализировать как набор эллиптических контуров, где минимальная ошибка расположена в центре эллипсов. Тогда мы будем работать с двумерным пространством, где измерения соответствуют весам. Контуры сопоставлены значениям w1 и w2, которые дают одно и то же E. Чем ближе они друг к другу, тем круче уклон. Направление самого крутого уклона всегда перпендикулярно контурам. Его можно выразить в виде вектора, называемого градиентом.
- Gefällt mir
- Kommentar
- Teilen
  Facebook
  Twitter
  Link kopieren
- Melden
Eldar Nasyrovhat Zitat gemachtvor 4 Jahren
Пора разработать высокоуровневую стратегию нахождения значений весов, которые сведут к минимуму функцию потерь. Допустим, мы случайным образом инициализируем веса сети, оказавшись где-то на горизонтальной поверхности. Оценив градиент в текущей позиции, мы можем найти направление самого крутого спуска и сделать шаг в нем. Теперь мы на новой позиции, которая ближе к минимуму, чем предыдущая. Мы проводим переоценку направления самого крутого спуска, взяв градиент, и делаем шаг в новом направлении. Как показано на рис. 2.3, следование этой стратегии со временем приведет нас к точке минимальной ошибки. Этот алгоритм известен как градиентный спуск, и мы будем использовать его для решения проблемы обучения отдельных нейронов и целых сетей
- Gefällt mir
- Kommentar
- Teilen
  Facebook
  Twitter
  Link kopieren
- Melden
Eldar Nasyrovhat Zitat gemachtvor 4 Jahren
В отличие от других типов, выходные данные нейрона в слое с мягким максимумом зависят от выходных данных всех остальных нейронов в нем. Нам нужно, чтобы сумма всех выходных значений равнялась 1. Приняв zi как логит i-го нейрона с мягким максимумом, мы можем достичь следующей нормализации, задав выходные значения:
- Gefällt mir
- Kommentar
- Teilen
  Facebook
  Twitter
  Link kopieren
- Melden
Eldar Nasyrovhat Zitat gemachtvor 4 Jahren
Еще один тип нелинейности используется нейроном с усеченным линейным преобразованием (ReLU). Здесь задействована функция f(z) = max(0, z), и ее график имеет форму хоккейной клюшки
- Gefällt mir
- Kommentar
- Teilen
  Facebook
  Twitter
  Link kopieren
- Melden
Eldar Nasyrovhat Zitat gemachtvor 4 Jahren
Нейроны гиперболического тангенса (tanh-нейроны) используют похожую S-образную нелинейность, но исходящие значения варьируют не от 0 до 1, а от −1 до 1. Формула для них предсказуемая: f(z) = tanh(z). Отношения между входным значением y и логитом z показаны на рис. 1.12. Когда используются S-образные нелинейности, часто предпочитают tanh-нейроны, а не сигмоидные, поскольку у tanh-нейронов центр находится в 0.
- Gefällt mir
- Kommentar
- Teilen
  Facebook
  Twitter
  Link kopieren
- Melden
Eldar Nasyrovhat Zitat gemachtvor 4 Jahren
На практике для вычислений применяются три типа нелинейных нейронов. Первый называется сигмоидным и использует функцию:

Интуитивно это означает, что, если логит очень мал, выходные данные логистического нейрона близки к 0. Если логит очень велик — то к 1. Между этими двумя экстремумами нейрон принимает форму буквы S
- Gefällt mir
- Kommentar
- Teilen
  Facebook
  Twitter
  Link kopieren
- Melden
Eldar Nasyrovhat Zitat gemachtvor 4 Jahren
Пусть входные значение i-го слоя сети — вектор x = [x1 x2 … xn]. Нам надо найти вектор y = [y1 y2 … ym], образованный распространением входных данных по нейронам. Мы можем выразить это как простое умножение матрицы, создав матрицу весов размера n × m и вектор смещения размера m. Каждый столбец будет соответствовать нейрону, причем j-й элемент сопоставлен весу соединения с j-м входящим элементом. Иными словами, y = ƒ(WTx + b), где функция активации применяется к вектору поэлементно.
- Gefällt mir
- Kommentar
- Teilen
  Facebook
  Twitter
  Link kopieren
- Melden
Eldar Nasyrovhat Zitat gemachtvor 4 Jahren
Необязательно, чтобы выход каждого нейрона был связан с входами всех нейронов следующего уровня. Выбор связей здесь — искусство, которое приходит с опытом.
- Gefällt mir
- Kommentar
- Teilen
  Facebook
  Twitter
  Link kopieren
- Melden
Eldar Nasyrovhat Zitat gemachtvor 4 Jahren
Чаще в скрытых слоях нейронов меньше, чем во входном: так сеть обучается сжатому представлению информации.
- Gefällt mir
- Kommentar
- Teilen
  Facebook
  Twitter
  Link kopieren
- Melden