Усмирить ядерный реактор, или как Intel решает вопросы тепловыделения
Введение
Прошедшей весной мы стали свидетелями появления массовых процессоров Intel для настольных ПК с нормированным тепловыделением более 100 Вт. Несмотря на столь внушительный заявленный расход энергии, похоже, что со временем дело станет лишь за преодолением психологического барьера, ибо проблемы эффективного отвода тепла для новых процессоров Pentium 4 с ядром Prescott пока не существует, по крайней мере, судя по результатам многочисленных тестирований и начала массовой эксплуатации чипов в последние полгода.
Выступая на форуме IDF Spring 2004, руководитель технического отдела Intel Патрик Гелсингер (Patrick P. Gelsinger) заявил: "100 Вт – это нормальный показатель для настольной системы". В целом, так оно и оказалось. Однако сам факт "энергичного" роста энергопотребления, не совсем адекватный приросту тактовых частот нового ядра и проявившийся аккурат при переходе к новому 90-нм техпроцессу, действительно приводит в некоторое смущение. Судите сами – уже сейчас, демонстрируя достаточно умеренный рост тактовых частот, новое ядро Prescott более чем на 20 Вт "обгоняет" по тепловыделению прежние 130-нм процессоры Pentium 4 с ядром Northwood.
Взгляните на данные в нижеприведенной таблице: наиболее высокочастотные 90-нм чипы Pentium 4 Prescott уже сравнимы по энергопотреблению с процессорами Pentium 4 Extreme Edition на "серверном" ядре Gallatin с соблюдением норм 130-нм техпроцесса. Технически рост энергопотребления все же объясним – не зря же в новом ядре присутствует значительно большее количество транзисторов за счет роста объема кеша, увеличения набора дополнительных модулей и так далее.
Энергопотребление процессоров Pentium 4 | |||||||
Чип | Pentium 4 XE | Pentium 4 | |||||
Рейтинг | – | 560 | 550 | 540 | 530 | 520 | – |
Ядро | Gallatin | Prescott | Northwood | ||||
Тактовая частота, ГГц | 3,40 | 3,60 | 3,40 | 3,20 | 3 | 2,80 | 3,40 |
VID, В | 1,525–1,6 | 1,25–1,4 | 1,55 | ||||
ICC (max), А | 83,9 | 119 | 78 | 71,6 | |||
TDP, Вт | 109,6 | 115 | 84 | 89 |
Однако настораживает тенденция. Рассуждая логически, дальнейшее масштабирование производительности чипов на этом ядре весьма быстро должно "упереться" в ограничение, навязанное соотношением "тактовая частота/тепловыделение". Иными словами, ситуация подошла к тому моменту, когда, если ничего не менять в техпроцессе и архитектуре, для подъема производительности за счет прироста тактовых частот придется вводить немыслимые ранее нормы TDP более 120 Вт.
Таким образом, не зная предыстории развития архитектуры Intel NetBurst, можно сделать вывод, что наращивание производительности Pentium 4 зашло в тупик. Тем более если попытаться просуммировать этапы задержек выпуска ядер Prescott и Dothan, а также связать такие выводы с одной из последних новостей июля, когда Intel объявила о переносе выпуска 4 ГГц Pentium 4 с конца 2004 года на первый квартал 2005.
Честно говоря, сейчас энергопотреблением процессора порядка 130 Вт и даже выше никого не испугать, благо уже разработано целое семейство новых форм-факторов системных плат – BTX, запросто справляющихся с большими токами и режимами интенсивного отвода. Однако были бы плохи те инженеры, которые занялись бы исключительно борьбой с последствиями проблемы, а не с ее первопричинами. Имея на руках готовое решение для новых уровней TDP, в Intel, тем не менее, готовы решать проблемы тепловыделения современных чипов более утонченным путем.
В настоящее время в лабораториях Intel развернута комплексная программа, целью которой является всестороннее исследование вопросов снижение энергопотребления. Реалии таковы, что транзисторы стремительно уменьшаются в размерах, вынуждая электроны, перемещающиеся по все более "тесным коридорам" процессорного ядра, встречать все возрастающее сопротивление и способствовать выделению процессором все большего количества тепла. Возрастает плотность размещения транзисторов на кристалле – увеличивается, соответственно, тепловыделение.
Оставив для будущих публикаций, несомненно, интереснейшие подробности о характеристиках плат и систем класса BTX, µBTX и picoBTX, сегодня хотелось бы познакомить читателей с подборкой фактов о том, как в Intel намерены бороться с избытком тепла в ближайшее время.
Перспективы и фундаментальные ограничения
Ни для кого не является секретом, что основой современной схемотехники является CMOS-логика - Complementary Metal Oxide Semiconductor, полупроводниковые компоненты на базе комплементарных металл-оксидных элементов (КМОП), составленные из транзисторов с n-каналом (NMOS, negative) и p-каналом (PMOS, positive). Для изменения состояния транзисторов, на которых построены любые микросхемы, в том числе, процессоры, требуется приложить потенциал к управляющему электроду – так называемому затвору. От приложенного потенциала зависит состояние транзистора – открыт он или закрыт, логическое "да" или "нет", ноль или единица. На этом принципе построена вся цифровая техника.
Плотность размещения транзисторов в современных чипах достигает миллионов штук на квадратный миллиметр – например, у 90-нм ядра Intel Prescott на площади 112 мм ² размещено порядка 125 миллионов транзисторов! Представьте себе, что каждый из них потребляет энергию и, самое главное, исходя из своих физических характеристик, обладая током утечки, представляет собой такой маленький "утюжок", который греет окружающее его пространство и разогревает чип в целом!
Еще в 2001 году Патрик Гелсингер отметил, что "если мы будем продолжать использовать современные методы дизайна процессоров, то к 2010 году процессоры будут вырабатывать больше тепла на квадратный миллиметр, чем это делает ядерный реактор". По его словам, справиться с проблемой можно лишь при помощи творческого мышления и поиска новых революционных путей решения.
Выход есть!
Итак, уменьшение норм техпроцесса приводит к планомерному уменьшению длины и ширины затвора транзистора. Как следствие, это ведет к увеличению токов утечки. Представьте себе, что эти самые токи утечки возрастают при переходе с 90 на 65-нм техпроцесс экспоненциально по сравнению с переходом от 130 к 90-нм технологии! Впрочем, так будет, если при изменении техпроцесса работать с прежними компонентами и не использовать новых материалов.
Проблема с утечками тока, если подойти к описанию процесса схематически, упрощенно, выглядит следующим образом: толщина слоя пленки диоксида кремния, применяемого нынче в качестве диэлектрика, при нынешней толщине затвора транзистора (имеется в виду 90-нм техпроцесс Intel 1262) составляет порядка в среднем 37-нм. Не нужно быть семи пядей во лбу, чтобы представить, что рано или поздно уменьшение размера затворов транзисторов приведет к возникновению эффекта тунеллирования. То есть слишком близкое расположение стока и истока транзистора позволит электронам беспрепятственно проходить через канал, какое бы напряжение при этом не прикладывалось к затвору. Мало того, что токи утечек в такой ситуации будут просто чудовищными, не исключено возникновение неспровоцированной эмиссии; срабатывание транзисторных ключей станет спонтанным и непредсказуемым.
Казалось бы, физический предел CMOS-логики уже не за горами, однако изложенные соображения правомочны лишь при неизменном условии использования классических материалов для построения полупроводников. При изменении исходных условий могут также измениться и результаты. Как известно, разработчики Intel уже разработали технологию замещения затворов транзисторов из SiO2 металлическими затворами. Переход к использованию high-k материалов ведет к тому, что ток, текущий по переходу во включенном состоянии, лишь незначительно превышает этот показатель в закрытом состоянии – соответственно, можно говорить о значительном снижении утечек и, как следствие, энергопотребления.
Предполагается, что новая технология будет использоваться при массовом производстве 45-нм чипов примерно в 2007–2009 годах, при этом ширина затворов составит примерно 18 нм. В то же время токи утечек сократятся на два порядка и даже более. Не исключено, что количество транзисторов в процессорах к тому времени вполне может приблизиться к 1 миллиарду, и даже представить страшно, какими бы "печками" были подобные чипы, вздумай кто-нибудь выпускать их по нынешнему техпроцессу.
Наряду с этим, компания также планирует отойти от использования добавок поликристаллического кремния при формировании электрода затвора транзистора и начать использование двух различных металлов, соответственно, для создания переходов в NMOS или PMOS-типах транзисторов.
Сам эффект снижения утечек от применения high-k окислов, как таковой, известен уже давно, однако до сих пор ученые находятся в поиске материалов, наиболее подходящих для таких целей. Применение уже известных high-k материалов – например, оксида гафния, циркония и других – обычно приводит к существенному снижению тока в канале под диэлектриком затвора и добавляет серьезных проблем при установке порогового напряжения срабатывания затвора, особенно в транзисторах PMOS-типа. Решить эту проблему помогают технологии "напряженного кремния" (strained silicon).
Выход есть, и не один!
Еще один путь оптимизации энергопотребления – доскональное исследование наиболее горячих точек процессорного ядра. Не секрет, что разные узлы процессора работают на различных тактовых частотах, что имеет непосредственное отношение к количеству выделяемой энергии.
Исследователи из лаборатории изучения цепей корпорации Intel под руководством Рэма Кришнамурти (Ram Krishnamurthy) решили более подробно разобраться, какие конкретно участки микропроцессора выделяют больше тепла, а какие - меньше. Для этого они использовали широко известную технологию "тепловидения", с помощью которой, например, спасатели с вертолета находят выживших жертв кораблекрушения в море, а пограничники перехватывают нарушителей границы. Исследователи ядра процессора обнаружили, что совсем небольшой его участок – а точнее, место сосредоточия модулей логических и арифметических операций – ALU (Arithmetic and Logic Unit) – нагревается до 127 °C, в то время как вся остальная часть – скажем, область кеш-памяти – существует при вполне приемлемой температуре 65 °C.
Если бы процессор выполнял лишь простую пересылку данных из одного участка памяти в другой, это не приводило бы к серьезному перегреву. Но процессор постоянно задействует ALU в математических операциях - сложении, вычитании, умножении и делении, причем ALU работает со скоростью, в два раза превышающей тактовую частоту процессора. Мало того, современные процессоры Intel используют не один, а от четырех до двадцати четырех ALU, в будущих процессорах их будет еще больше. Поскольку все эти ALU постоянно обмениваются данными, они располагаются поблизости друг от друга, что еще больше увеличивает плотность выделения тепла.
При вполне приемлемой общей температуре процессора такие участки способны практически "спалить" его изнутри, перегревая отдельные участки локально (на вопрос "сколько транзисторов разрешается спалить, чтобы чип остался работоспособен?" есть только один ответ: "ни одного из сотен миллионов").
Чтобы снизить тепловыделение, исследователи разработали новую схему ALU, которая позволяет повысить производительность процессора и снизить тепловыделение. По словам директора Microprocessor Technology Lab и почетного сотрудника Corporate Technology Group Стива Павловски (Steve Pawlowski), "новая технология позволяет в четыре раза снизить потери энергии на тепловыделение".
На схемах ниже показан принцип организации ALU для работы в 32-битном и 64-битном режимах. Каждый 32-битный модуль ALU состоит из 5:1 однонаправленного динамического мультиплексора, 32-битного 2-коренного суммирующего ядра с однонаправленными критическими динамическими контурами и второстепенными статическими контурами, однонаправленной write-back 110-мкм шиной ALU. Такая организация позволяет осуществлять в 32-битном и 64-битном режимах выполнение инструкций Add, Subtract и Accumulate за один такт.
Подобная архитектура ALU в сочетании с полудинамической реализацией и однонаправленными элементами схемы позволяет, по словам специалистов Intel, добиться 56% снижения количества переключений и обеспечить соответствующее снижение энергопотребления за счет уменьшения активной утечки энергии по сравнению с классической схемой со схожим уровнем производительности. При работе на тактовой частоте 4 ГГц/7 ГГц (1,3 В, 25 °C), измеренное энергопотребление 64-бит/32-бит ALU составило 300 мВт/238 мВт, а утечки энергии - 9,6 мВт/4,4 мВт. На графике ниже как раз демонстрируется зависимость энергопотребления от тактовой частоты и приложенного напряжения.
Группе Кришнамурти удалось получить микропроцессорные элементы с впечатляющими показателями быстродействия: работающий с частотой 10 ГГц 32-разрядный целочисленный ALU, изготовленный по технологии 130 нм, и работающий с частотой 7 ГГц 64-битный целочисленный ALU, изготовленный по технологии 90 нм.
Именно группа Кришнамурти разработала дизайн ALU, который делает возможным использование как 32-, так и 64-разрядного кода, что позволяет Intel изготавливать чипы, работающие с обоими типами ПО. Новому ALU дали кодовое имя Nozomi в честь высокоскоростного японского поезда. Широкой публике одна из ипостасей этого решения известна по публикациям в прессе о поддержке новыми процессорами компании технологии Intel EM64T (Extended Memory 64 Technology).
ALU Nozomi (в переводе с японского слово означает "надежда") может производиться по технологии 90 нм. Уже сейчас решение готово для промышленного внедрения в процессоры для настольных ПК, ноутбуков, серверов и даже карманных компьютеров, поскольку технология с одинаковым успехом вписывается в 32- и 64-битные архитектуры, а также в архитектуру Intel XScale.
Как рассказывает Рэм Кришнамурти, "мы осознали, что именно ALU являются "горячими точками" микропроцессора, потребляя львиную долю мощности и ситуация будет только усугубляться в будущем. Мы разработали две совершенно новые технологии, которые позволяют с высокой эффективностью объединять несколько ядер на кристалле или несколько ALU в одном ядре, достигая большого выигрыша по производительности. При этом эффективность разработки в сфере тепловыделения облегчает в будущем переход к большей разрядности. Скажем, 64-битный ALU типа Nozomi, протестированный в нашей лаборатории, потребляет всего-навсего 300 мВт, что в два с лишним раза меньше, чем аналогичные устройства".
Заключение
Очевидно, что создатели таких сложных устройств, какими являются процессоры, еще не раз столкнутся с неразрешимыми, на первый взгляд, проблемами. В этом кратком материале мы затронули лишь два аспекта, два способа снижения энергопотребления современных процессоров, отражающие как технологический подход, так и схемотехнический способ борьбы с излишним теплом. На деле их, разумеется, гораздо больше – взять, например, тот же вопрос равномерности шлифовки металлических слоев на кремниевой пластине, действительно ставший критичным лишь при переходе к 90-нм нормам, или такие подходы, как применение "напряженного кремния", SOI и медных соединений.
Очевидно, что по мере приближения к физическому пределу нынешней "кремниевой" технологии проблемы будут встречаться все чаще и чаще. Рано или поздно ее придется чем-то заменить. Однако с уверенностью можно утверждать, что тупика или остановки в этом развитии точно не будет, ибо так устроен человек...