В принципе, категориальные переменные также можно закодировать описанным выше способом, пронумеровав их произвольным образом. Однако, такое навязывание несуществующей упорядоченности только затруднит решение задачи. Оптимальное кодирование не должно искажать структуры соотношений между классами. Если классы не упорядоченны, такова же должна быть и схема кодирования.
Наиболее естественной выглядит и чаще всего используется на практике двоичное кодирование типа
, когда имена категорий кодируются значениями бинарных нейронов, причем первая категория кодируется как , вторая, соответственно - и т.д. вплоть до -ной: . (Можно использовать биполярную кодировку, в которой нули заменяются на ). Легко убедиться, что в такой симметричной кодировке расстояния между всеми векторами-категориями равны.Такое кодирование, однако, неоптимально в случае, когда классы представлены существенно различающимся числом примеров. В этом случае, функция распределения значений переменной крайне неоднородна, что существенно снижает информативность этой переменной. Тогда имеет смысл использовать более компактный, но симметричный код
, когда имена классов кодируются -битным двоичным кодом. Причем, в новой кодировке активность кодирующих нейронов должна быть равномерна: иметь приблизительно одинаковое среднее по примерам значение активации. Это гарантирует одинаковую значимость весов, соответствующих различным нейронам.В качестве примера рассмотрим ситуацию, когда один из четырех классов (например, класс
) некой категориальной переменной представлен гораздо большим числом примеров, чем остальные: . Простое кодирование привело бы к тому, что первый нейрон активировался бы гораздо чаще остальных. Соответственно, веса оставшихся нейронов имели бы меньше возможностей для обучения. Этой ситуации можно избежать, закодировав четыре класса двумя бинарными нейронами следующим образом: , обеспечивающим равномерную "загрузку" кодирующих нейронов.