Конструкция суперскалярного процессора представляет собой форму параллельных вычислений, называемую "Параллелизм на уровне инструкций", внутри одного центрального процессора, что позволяет выполнять больше работы с той же тактовой частотой. Это означает, что центральный процессор выполняет более одной инструкции в течение тактового цикла, выполняя несколько инструкций одновременно (так называемая диспетчеризация инструкций) на дублирующих функциональных блоках. Каждый функциональный блок - это просто ресурс выполнения внутри ядра процессора, например, арифметический логический блок (АЛУ), блок с плавающей запятой (FPU), битовый сдвиг или множитель.

Большинство суперскалярных процессоров также являются трубопроводными, но возможно наличие не трубопроводных суперскалярных процессоров или трубопроводных не суперскалярных процессоров.

Техника суперскаляра поддерживается несколькими особенностями ядра процессора:

  1. Инструкции поступают из списка заказанных инструкций.
  2. Аппаратное обеспечение ЦПУ может определить, какие инструкции имеют зависимости от данных.
  3. Может прочитать несколько инструкций за один тактовый цикл

Каждая команда, выполняемая скалярным процессором, изменяет один или два элемента данных за раз, но каждая команда, выполняемая векторным процессором, обрабатывает множество элементов данных одновременно. Скалярный процессор - это смесь двух:

  1. Каждая инструкция обрабатывает один элемент данных.
  2. Внутри каждого ядра ЦП есть несколько дублирующих друг друга функциональных блоков, так что несколько инструкций работают с независимыми элементами данных одновременно.

В суперскалярном процессоре диспетчер инструкций читает инструкции из памяти и решает, какие из них могут выполняться параллельно, отправляя их на несколько дублирующих функциональных блоков, имеющихся внутри процессора.

Дизайн процессора Superscalar заботится о повышении точности работы диспетчера инструкций и позволяет ему постоянно держать несколько функциональных блоков занятыми. По состоянию на 2008 год все ЦП общего назначения являются суперскалярными, типичный суперскалярный ЦП может включать до 4-х АЛУ, 2-х FPU и 2-х SIMD блоков. Если диспетчер не сможет удержать все блоки занятыми, производительность ЦП будет ниже.