Микропроцессор Pentium 4

Реферат, 21 Марта 2012, автор: пользователь скрыл имя

Краткое описание


20 ноября 2000 года компания Intel представила одноядерный x86-совместимый микропроцессор. В его основе лежала новая архитектура седьмого поколения (по классификации Intel) — NetBurst. В середине 2005 года постепенно стало происходить вытеснение этих микропроцессоров в нижнюю ценовую категорию. 8 августа 2007 года начала действовать программа по снятию с производства всех процессоров архитектуры NetBurst.

Прикрепленные файлы: 1 файл

процессор.docx

— 151.48 Кб (Скачать документ)

Микропроцессор

Pentium 4

20 ноября 2000 года компания Intel представила одноядерный x86-совместимый микропроцессор. В его основе лежала новая архитектура седьмого поколения (по классификации Intel) — NetBurst. В середине 2005 года постепенно стало происходить вытеснение этих микропроцессоров в нижнюю ценовую категорию. 8 августа 2007 года начала действовать программа по снятию с производства всех процессоров архитектуры NetBurst.

Процессоры Pentium 4 выпускались в трёх типах корпусов.

Корпус ранних процессоров (устанавливались в разъём Socket 423) являлся подложкой из органического материала с кристаллом, закрытым теплораспределительной крышкой. Установлена она была на плату-переходник с 423 штырьковыми контактами.

Третий тип корпуса (выпускался по осень 2007 года) - корпус типа FC-LGA4. Он представлял собой подложку из органического материала с закрытым теплораспределительной крышкой кристаллом с лицевой стороны и 775 контактными площадками с обратной. Между контактами установлены SMD-элементы, Как и в предыдущих типах корпусов.

Модели Pentium 4: процессор на ядре Willamette (2000 год), процессоры на ядре Northwood, процессоры на ядре Prescott (2004 год), процессоры на ядре Cedar Mill (последнее ядро, использовавшееся в процессорах Pentium 4).

Архитектура NetBurst

NetBurst — это суперскалярная гиперконвейерная микроархитектура. Разработчиком является компания Intel. Эта архитектура лежит в основе микропроцессоров Pentium 4, Pentium D, Xeon и Celeron.

Архитектура NetBurst является принципиально новой по сравнению со всеми предшественниками архитектурой и используется для настольных и серверных систем.

Первые процессоры этой архитектуры  были анонсированы 20 ноября 2000 года.

Основной целью разработки архитектуры NetBurst было достижение высоких тактовых частот процессоров. Ее отличительными особенностями яаляются: гиперконвейеризация, кэш последовательностей микроопераций, система повторного исполнения микроопераций, АЛУ и механизм ускоренного исполнения целочисленных операций. Рассмотрим их более подробно.

Hyper Pipelining – гиперконвейеризация

У процессоров Pentium 4 на ядрах Willamette и Northwood имеется конвейер глубиной 20 стадий, а у процессоров на ядрах Prescott и Cedar Mill — 31 стадию. Здесь не учитываются стадии декодирования инструкций. Так как применяется кэш последовательностей микроопераций, декодер вынесен за пределы конвейера. Это позволяет процессорам Pentium 4 достигать более высоких тактовых частот по сравнению с процессорами, имеющими более короткий конвейер при одинаковой технологии производства.

Execution Trace Cache - кэш последовательностей микроопераций

Процессоры архитектуры NetBurst являются CISC-процессорами с RISC-ядром (как и большинство современных x86-совместимых процессоров): перед исполнением сложные инструкции x86 преобразуются в более простой набор внутренних инструкций (микроопераций). Это позволяет повысить скорость обработки команд. Но из-за того, что инструкции x86 не имеют фиксированного формата и имеют переменную длину, их декодирование связано с существенными временными затратами.

Это явилось причиной того, при разработке архитектуры NetBurst было принято решение отказаться от традиционной кэш-памяти инструкций первого уровня, хранящей команды x86. Вместо этого стали использовать кэш последовательностей микроопераций, хранящий последовательности микроопераций в соответствии с предполагаемым порядком их исполнения. Емкость trace cache составляла около 12 тыс. микроопераций. Такая организация кэш-памяти позволила также снизить временные затраты на выполнение условных переходов и на выборку инструкций.

Replay System - система повторного исполнения микроопераций

Определение готовности микроопераций к исполнению и передача их на конвейер – это основная задача планировщиков микроопераций. Из-за большого количества стадий конвейера, планировщикам необходимо отправлять микрооперации на исполнительные блоки до того, как завершится выполнение предыдущих микроопераций. Благодаря этому происходит оптимальная загрузка исполнительных блоков процессора, что позволяет избежать потери производительности в том случае, если данные, которые необходимы для выполнения микрооперации, находятся в кэш-памяти первого уровня, регистровом файле, или могут быть переданы, минуя регистровый файл.

Определяя готовность новых микроопераций к передаче на исполнительные блоки, планировщик должен определить время выполнения тех предыдущих микроопераций, результатом которых являются данные, необходимые для выполнения новых микроопераций. Если же время выполнения заранее не определено, для его определения планировщик использует наименьшее время её выполнения.

Микрооперация выполняется успешно в том случае, если оценка времени, необходимого для получения данных, оказалась верной. Если же данные не были получены вовремя, проверка корректности результата заканчивается неудачей. При этом микрооперация ставится в специальную очередь, а потом опять направляется планировщиком на исполнение.

Rapid Execution Engine - АЛУ и механизм ускоренного исполнения целочисленных операций

В процессе разработки архитектуры NetBurst возникла необходимость увеличения темпа выполнения основных целочисленных операций. Это произошло из-за того, что главной целью разработки данной архитектуры было повышение производительности за счёт достижения высоких тактовых частот. Чтобы достичь этой  цели, разработчики разделили АЛУ процессоров архитектуры NetBurst на несколько блоков: «медленное АЛУ», способное выполнять большое количество целочисленных операций, и два «быстрых АЛУ», выполняющих только простейшие целочисленные операции. Выполнение операций на «быстрых АЛУ» происходит последовательно в три этапа: сначала вычисляются младшие разряды результата, затем старшие, после чего могут быть получены флаги.

Достоинства

Недостатки

  1. возможность работы на высоких тактовых частотах;
  2. высокая пропускная способность памяти;
  3. повышение производительности в задачах, поддерживающих многопроцессорность;
  4. привлекательность для покупателей;
  5. популярность среди пользователей (компания Intel удерживает большую долю рынка микропроцессоров (> 70%) и получает прибыль).
  1. уменьшение удельной производительности длинного конвейера по сравнению с коротким;
  2. большие потери производительности при неверном выполнении инструкций;
  3. с высокое тепловыделение при работе процессоров на высоких частотах;
  4. обмен данными между ядрами в многоядерных процессорах осуществляется через оперативную память, что приводит к потерям производительности.

 

 

Рис. 1 Схема микропроцессора  Pentium 4 архитектуры NetBurst

Через блок системного интерфейса в микропроцессор поступают команды и данные.

 В любом процессоре архитектуры x86 всегда присутствует процессорная шина. Она является каналом связи между процессором и остальными устройствами в компьютере.

Новая реализация системной шины обеспечивает обмен с эквивалентной частотой 400 МГц. Это используется для ускорения обмена с памятью в Pentium 4.

Кэш-память 2-го уровня (L2) имеет емкость 256 Кбайт и является общей для команд и данных. Она размещается непосредственно на кристалле МП. В ней сохраняется полученная по системной шине информация. Ширина шины, по которой идет обмен данными между кэш-памятью L2 и процессором, составляет 256 бит (32 байта), а ее тактовая частота совпадает с тактовой частотой ядра процессора.

Емкость кэш-памяти данных 1-го уровня (L1) составляет 8 Кбайт. На ее уровне реализуется гарвардская внутренняя структура с помощью разделения потоков команд и данных. в Pentium 4 вместо кэш-памяти команд 1-го уровня используется кэш-память для декодированных микрокоманд (Execution TRace Cache). ЕЕ емкость составляет 12 Кбайт.

Любая команда преобразуется  в  после заполнения кэш-памяти микрокоманд. Благодаря этому при поступлении следующей команды блок трассировки выбирает из этой кэш-памяти необходимые микрокоманды, которые обеспечивают ее выполнение.

Если в потоке команд оказывается команда условного перехода, включается механизм предсказания ветвления. Он формирует адрес следующей выбираемой команды до того, как будет определено условие выполнения перехода. Затем происходит выделение регистров, которые необходимы для выполнения декодированных команд. Эта процедура реализуется блоком распределения регистров.

Ступени распределения/переименования конвейера за один такт на следующую ступень конвейера могут выпустить три микрокоманды.

Микрокоманды, реализующие выполнение до 120 поступивших и декодированных команд, размещаются в очереди микрокоманд. Затем они направляются в исполнительные устройства. Эти функции реализует блок распределения микрокоманд.

Из памяти выбираются адреса операндов. Они вычисляются блоком формирования адреса (БФА), который реализует интерфейс с кэш-памятью данных 1-го уровня.

При выборке операнда из памяти происходит обращение к кэш-памяти данных ( L1 ), которая имеет отдельные порты для чтения и записи. За один такт производится выборка операндов для двух команд.

 

Из блока распределения в исполнительное ядро по 4 портам в 8 исполнительных блоков поступают микрокоманды. Эти порты являются шлюзами к функциональным устройствам. Чтобы обрабатывать целочисленные данные и выполнять логические операции в Pentium 4 используются 4 однотипных арифметико-логических устройства (ALU ). Они производят обработку целочисленных операндов, которые поступают из заданных регистров БРЗ. Затем в эти же регистры заносится результат операции.

Обработка чисел с плавающей  запятой проходит в FPU. Блоки MMX  и SSE предназначены для выполнения команд этих типов.

Для сокращения потерь времени, в Pentium 4 используется улучшенный блок предсказания ветвлений. Основная часть блока - является ассоциативная память. В ней хранятся 4092 адреса ранее выполненных переходов. Более совершенный механизм предсказания переходов в МП Pentium 4 обеспечивает уменьшение количества ошибочно предсказанных переходов в среднем на 33 % по сравнению с Pentium III. Таким образом, резко уменьшается число перезагрузок конвейера при неправильном предсказании ветвления.

Производительность  процессора Pentium 4 архитектуры NetBurst

При анализе производительности процессора стоит особое внимание уделить температурному режиму. При высокой тактовой частоте процессор начинает нагреваться. Поэтому в процессорах Pentium 4 компания Intel применила новую технологию Thermal Control Circuit. Во все процессоры Pentium 4 встроены два температурных датчика (термодиода). Один из них сообщает системе аппаратного мониторинга материнской платы температуру ядра процессора, а другой находится в самой «жаркой» точке ядра, возле блоков ALU и является частью схемы Thermal Monitor. Эта технология обеспечивает стабильную работу и защищает от повреждения процессоры Pentium 4 при перегреве.

Теперь для анализа  протестируем и сравним процессор Pentium 4 с другими ведущими процессорами компании Intel - Pentium 3(1 ГГц) и Athlon (1,2 ГГц).

1. Тест на производительность целочисленной части процессора и скорость работы с данными.

Отсюда видно, что из-за недостаточно большого объема L1 кэша, в котором не помещаются все необходимые для работы данные, Pentium 4 работает медленнее, несмотря на то, что его ALU работает на удвоенной частоте процессора.

2. Тест на скорость операций с памятью.

Чтение

Запись

По графикам можно определить, что скорость работы L1 и L2 кэшей в Pentium 4 по сравнению с Pentium III возросла. Но все же у AMD Athlon L1 кэш по размеру больше. Помимо прочего, на графике отчетливо видно, что пропускная способность двухканальной RDRAM гораздо выше, чем используемой в системах на Athlon и Pentium III PC133 SDRAM. Также, результаты этого теста позволяют оценить, что L2 кеш процессора Pentium 4 работает быстрее, чем L2 кеш Athlon. Любопытен тот факт, что влияние L1-кеша совершенно не сказывается в системе с Pentium 4 при записи в память.

3. Тест на увеличение  разрешения при возрастании нагрузки на шины передачи данных.

В этом тесте вперед выходит Pentium 4 из-за его 400-мегагерцовой шиной и памятью с пропускной способностью 3.2 Гбайт/с.

Вывод: производительность Pentium 4 не так высока как хотелось бы. Причиной этому является сверхдлинный 20-стадийный конвейер и недостаточно большой кеш данных первого уровня. Поэтому, в ближайшее время Pentium 4 по производительности трудно будет обогнать своих конкурентов.

Быстродействие  процессора Pentium 4 архитектуры NetBurst

Быстродействие является одной из характеристик процессора, которая не имеет однозначного толкования.

 Быстродействие компьютера  зависит от тактовой частоты,  которая измеряется в мегагерцах (МГц).

Если процессор представить в качестве логического устройства, то наименьшей единицей измерения времени (квантом) будет считаться период тактовой частоты, или просто такт. На каждую операцию затрачивается минимум один такт.

Проводя анализ быстродействия процессора Pentium 4, стоит обратить внимание на одну особенность. В работе любого процессора при сбоях на этапе предсказания множественного перехода или упреждающего выполнения происходит удаление всех имеющихся данных и повторное заполнение конвейера. Pentium 4 в течение цикла выполняет меньшее количество команд. Поэтому в сравнении с ним другие процессоры являются более эффективными.

 С первого взгляда можно сказать, что это является недостатком процессора, но на самом деле мы имеем дело с особенностью его конструкции. В защиту этого предположения можно привести следующие аргументы: использование более глубокой конвейерной обработки команд может привести к 30%-му снижению общей эффективности процессора, но это позволяет увеличить его тактовую частоту примерно на 50% по сравнению с другими процессорами, у которых конвейеры более короткие. Благодаря тому, что в архитектуре процессора Pentium 4 применяется 20-ступенчатый конвейера, появилась возможность достичь более высоких тактовых частот при использовании стандартной кремниевой технологии. Сравним. Процессоры Pentium 4 и Athlon ХР создавались с помощью одной и той же 0,18-микронной технологии. 20-ступенчатый конвейер архитектуры Pentium 4 позволяет при использовании этой технологии достичь тактовой частоты 2,0 ГГц. При тех же условиях частота процессора Athlon ХР с 20-ступенчатым конвейером достигает 1,73 ГГц, а процессоров Pentium Ill/Celeron с 10-ступенчатым конвейером — лишь 1,13 ГГц.

Информация о работе Микропроцессор Pentium 4