NVIDIA Pascal: обзор архитектуры. Семейства видеокарт Nvidia GeForce Справочная информация Улучшение качества картинки и восприятия игрового мира

Компания NVIDIA готовит к выпуску новую серию игровых видеокарт, которую откроет GeForce GTX 1080. Эта модель станет первым продуктом игрового класса на базе архитектуры Pascal. GeForce GTX 1080 принесет ряд технологических инноваций, о которых мы поговорим в данной статье. Материал будет носить теоретический характер, в нем рассмотрены архитектурные особенности и новые возможности GeForce GTX 1080. Тестирование и сравнение с другими видеокартами появится позже.

Стремительный прогресс в миниатюризации кремниевых чипов в последние годы сбавил обороты. Компания Intel даже отказалась от стратегии «Тик-так», которая предусматривала регулярный переход на более тонкий техпроцесс. На рынке графических ускорителей в рамках одного 28-нм техпроцесса сменилось несколько поколений продуктов NVIDIA и AMD. Отчасти это пошло на пользу и заставило производителей больше внимания уделять развитию архитектуры. Этот качественный переход в свое время был хорошо заметен при переходе с Kepler на архитектуру Maxwell, когда новое поколение оказалось более производительным и энергоэффективным без увеличения количества транзисторов или даже при уменьшении размеров кристаллов. К примеру, GeForce GTX 980 базируется на более компактном чипе GM204, что не мешает видеокарте демонстрировать более высокую производительность относительно GeForce GTX 780 Ti с более сложным чипом GK110.

Новое поколение GeForce получит как новую архитектуру, так и более тонкий техпроцесс. И GeForce GTX 1080 во многих отношениях является первопроходцем. Это первый графический ускоритель на архитектуре Pascal с графическим процессором GP104, который выполнен по нормам техпроцесса 16-нм FinFET. Среди важных инноваций компания NVIDIA отмечает еще быструю память стандарта GDDR5X. Новые технологические особенности позволяют поднять частоты до рекордного уровня, определяя новый уровень «мастерства». А новые игровые технологии расширяют возможности GeForce, особенно в области работы с VR-контентом. Это пять основных особенностей, которые выделяет производитель в новом продукте.

Стоит отметить, что изначально первопроходцем архитектуры Pascal стал специализированный ускоритель вычислений Tesla P100. Он базируется на процессоре GP100. Но поскольку продукт ориентирован на совершенно другую сферу применения, то именно GeForce GTX 1080 является пионером среди настольных графических ускорителей.

GPU GP104 наследник GM204 , поэтому при изучении GeForce GTX 1080 можно отталкиваться от GeForce GTX 980, хотя новичок быстрее GeForce GTX 980 Ti и GeForce GTX Titan X. Процессоры Pascal используют кластерную структуру по типу предшественников, где кластер GPC (Graphics Processing Cluster) по сути является самостоятельным вычислительным блоком. В основе GP100 шесть кластеров, у GP104 четыре кластера, а следующий чип GP106 должен получить два кластера. Четыре GPC делают новый GPU GP104 максимально близким к GM204. Да и блок-схема этого чипа тоже напоминает старый процессор.

Различия в структуре проявляются при более внимательном изучении. В прошлом поколении кластер включал в себя четыре крупных мультипроцессорных блока SMM. У GP104 младшие исполнительные блоки сгруппированы в пять мультипроцессорных блоков SM. Каждый такой крупный блок обработки данных связан со своим блоком обработки геометрии Polymorph Engine, которых теперь 20 вместо 16 у GM204.

Один SM разбит на четыре массива обработки данных со своей управляющей логикой, и это тоже аналогично структуре старых GPU. И в обоих случаях мультипроцессор оперируют 128 потоковыми ядрами (CUDA cores). В SM есть 96 КБ общей кэш-памяти, отдельный текстурный кэш и восемь текстурных блоков. В итоге имеем конфигурацию из 2560 потоковых процессоров и 160 текстурных блоков. У нового процессора 64 блока ROP и кэш-память L2 объемом 2 МБ — тут отличий от GM204 нет.

Стало больше контроллеров памяти, в Pascal изменилась вся подсистема работы с памятью. Вместо четырех 64-битных контроллеров реализовано восемь 32-битных, что обеспечивает разрядность шины памяти в 256 бит. После успешного GeForce GTX 980 такая шина памяти в топовом продукте уже не удивляет. При этом эффективность шины у GeForce GTX 1080 выше за счет новых алгоритмов сжатия данных. Также рост пропускной способности обеспечивают микросхемы нового стандарта GDDR5X, у которых эффективное значение обмена данных эквивалентно частоте 10 ГГц. Привычная память GDDR5 ограничивалась частотами до 7 ГГц. Объем видеобуфера повышен до 8 ГБ.

Благодаря новому техпроцессу GP104 компактнее GM204 при большем количестве вычислительных блоков. При этом новый процессор имеет больше возможностей для повышения частот. Изначально для него установлено базовое значение в 1607 МГц при среднем Boost Clock 1733 МГц. Пиковые значения частоты еще выше. С такими рекордными частотами GeForce GTX 1080 укладывается в TDP 180 Вт, что немного выше показателей GeForce GTX 980. А ведь новичок быстрее топовой Ti-версии, у которой TDP заметно больше.

Для наглядного сравнения сведем в одной таблице характеристики GeForce GTX 1080 и топовых видеокарт предыдущих поколений.

Видеоадаптер GeForce GTX 1080 GeForce GTX Titan X GeForce GTX 980 Ti GeForce GTX 980 GeForce GTX 780 Ti
Ядро GP104 GM200 GM200 GM204 GK110
Количество транзисторов, млн. шт 7200 8000 8000 5200 7100
Техпроцесс, нм 16 28 28 28 28
Площадь ядра, кв. мм 314 601 601 398 561
Количество потоковых процессоров 2560 3072 2816 2048 2880
Количество текстурных блоков 160 192 176 128 240
Количество блоков рендеринга 64 96 96 64 48
Частота ядра, МГц 1607-1733 1000-1075 1000-1075 1126-1216 875-926
Шина памяти, бит 256 386 386 256 384
Тип памяти GDDR5X GDDR5 GDDR5 GDDR5 GDDR5
Частота памяти, МГц 10010 7010 7010 7010 7010
Объём памяти, МБ 8192 12288 6144 4096 3072
Поддерживаемая версия DirectX 12.1 12.1 12.1 12.1 12.0
Интерфейс PCI-E 3.0 PCI-E 3.0 PCI-E 3.0 PCI-E 3.0 PCI-E 3.0
Мощность, Вт 180 250 250 165 250

Видеокарты NVIDIA среднего и старшего уровня давно используют технологию GPU Boost, которая повышает частоту графического процессора до тех пор, пока он не превысит ограничения по температуре или мощности. Минимальным значением для 3D-режима является базовая частота, но зачастую при обычной игровой нагрузке частоты всегда выше. Новые GeForce получили улучшенную технологию GPU Boost 3.0 с более гибким алгоритмом изменения частоты в зависимости от питающего напряжения в режиме частотного ускорения. У GPU Boost 2.0 фиксированная разница между базовым значением и частотой Turbo. GPU Boost 3.0 позволяет использовать разное смещение частот, что позволит лучше раскрыть потенциал GPU. Теоретически при автоматическом изменении параметров в Boost-режиме с повышением или понижением напряжения частота будет изменяться нелинейно, в каких-то точках дельта Boost может быть больше, чем это было бы с GPU Boost старой версии. Новые возможности гибкой регулировки Boost будут доступны пользователям. Свежая версия утилиты EVGA Precision уже поддерживает GeForce GTX 1080, среди ее возможностей автоматический сканер с тестом стабильности, который может формировать нелинейную кривую частот Boost для разных напряжений. Переход на новый техпроцесс и оптимизация структуры ядра позволили добиться столь значительного частотного ускорения, что максимальный Boost относительно заявленных значений может повышаться до уровня 2 ГГц.

С момента появления GDDR5 компания NVIDIA работала над следующим поколением скоростной памяти. Результатом взаимодействия с разработчиками памяти стало появление GDDR5X со скоростью передачи данных 10 Гбит/с. Работа со столь быстрой памятью выдвигает новые требования к разводке электрических цепей. Поэтому были переработаны линии передачи данных между GPU и микросхемами памяти, изменена структура самого чипа. Все это позволяет эффективно работать со сверхбыстрым видеобуфером. Среди преимуществ GDDR5X и более низкое рабочее напряжение на уровне 1,35 В.

При эффективной частоте памяти в 10000 МГц увеличение пропускной способности относительно привычных для нынешнего поколения 7012 МГц почти 43%. Но этим преимущества Pascal не ограничиваются. GeForce поддерживают специальные алгоритмы сжатия данных в памяти, что позволяет более эффективно использовать кэш и передавать больше данных при той же пропускной способности. Поддерживается несколько методик, в зависимости от типа данных выбирается свой алгоритм сжатия. Важную роль играет алгоритм сжатия цвета delta color compression. Благодаря ему кодируется не цвет каждого отдельного пикселя, а разница между пикселями при последовательной передаче данных. Вычисляется некий усредненный цвет тайла и данные о смещении цвета для каждого пикселя этого тайла.

Такое сжатие обеспечивает высокую продуктивность Maxwell, но эффективность Pascal еще выше. GPU GP104 дополнительно поддерживает новые алгоритмы с еще большим сжатием для случаев, когда разница между цветом минимальна.

В качестве примера NVIDIA приводит два слайда из игры Project CARS. Розовым цветом на них закрашены те тайлы, где применялось сжатие данных. Верхний слайд отражает работу сжатия на Maxwell, нижний на Pascal.

Как видим, сжатие у Pascal применяется и к тем зонам, где оно не выполнено на Maxwell. В итоге почти весь кадр подвергся сжатию. Конечно, эффективность работы таких алгоритмов зависит от каждой конкретной сцены. По данным NVIDIA разница в этой эффективности между GeForce GTX 1080 и GeForce GTX 980 варьируется от 11% до 28%. Если взять за среднее значение величину 20%, то с учетом повышения частот памяти результирующий рост пропускной способности составляет около 70%.

Новое поколения GeForce поддерживает асинхронные вычисления Async Compute с улучшенным использованием вычислительных ресурсов для разных типов задач. В современных играх GPU одновременно с рендерингом изображения могут выполнять и другие задачи. Это может быть расчет физики тел, постообработка изображения и специальная техника асинхронного искажения времени (Asynchronous Time Warp) для режима виртуальной реальности. При выполнении разных задач не всегда задействуются все вычислительные блоки, и выполнение каждой задачи может занимать разное время. К примеру, если неграфические вычисления выполняются дольше графических, то все равно идет ожидание завершения каждого процесса для переключения к новым задачам. При этом часть ресурсов GPU простаивает. В Pascal появилась динамическая балансировка загрузки. Если одна задача выполнилась раньше, то освободившиеся ресурсы подключаются на выполнение другой задачи.

Таким образом удается избежать простоев и поднять общую производительность при комбинированной нагрузке на GPU. При подобной нагрузке важную роль играет и скорость переключения между задачами. Pascal поддерживает прерывание задач на разных уровнях для максимально быстрого переключения. При получении новой команды процессор прерывает задачи на уровнях обработки пикселей и потоков, сохраняя их состояние для дальнейшего завершения, и вычислительные блоки принимаются за новую задачу. Pascal поддерживает прерывание на уровне отдельных инструкций, Maxwell и Kepler только на уровне потоков.

Прерывание на разных уровнях позволяет точнее определить момент переключения задачи. Это важно для техники Asynchronous Time Warp, которая деформирует уже сформированное изображения перед его выводом для коррекции в соответствии с положением головы. При Asynchronous Time Warp нужно быстрое упреждение для переключения строго перед выводом кадра, иначе возможны артефакты в виде «дрожания» картинки. Pascal справляется с этой задачей лучше всего.

В Pascal появилась аппаратная поддержка технологии мультипроецирования, которая позволяет работать одновременно с разными проекциями изображения. Специальный блок Simultaneous Multi-Projection внутри PolyMorph Engine отвечает за формирование разных проекций при обработке одного потока геометрии. Этот блок обрабатывает геометрию одновременно для 16 проекций с одним или двумя центрами перспективы. Это не требует повторной обработки геометрии и позволяет реплицировать данные до 32 раз (16 проекций на две точки).

Благодаря технологии можно получить корректное изображение на мультимониторных конфигурациях. При использовании трех мониторов изображение рендерится для одной проекции. Если крайние мониторы повернуты под небольшим углом, чтобы создать эффект окружения, то вы получите некорректную геометрию в боковых зонах. Мультипроецирование создает корректное изображение, формирую правильные проекцию в соответствии с углом положения монитора. Единственным условием для такого режима является поддержка широкого FOV самим приложением.

Такая методика формирования изображения позволяет наиболее эффективно использовать изогнутые панели, а также открывает возможности для корректного рендеринга на других устройствах вывода изображения, даже на сферическом экране.

Данная технология расширяет возможности Pascal при формировании стерео-изображения и в системах виртуальной реальности (VR). В режиме стерео формируется два изображения одной сцены для каждого глаза. Аппаратная поддержка Simultaneous Multi-Projection позволяет создать каждую проекцию для своего глаза при единоразовой обработке геометрии с использованием технологии Single Pass Stereo. И это значительно ускоряет работу в таком режиме.

В системах VR пользователь использует очки со специальными линзами, которые вносят определенные искажения. Для компенсации изображение немного деформируется по краям, а пользователь в итоге наблюдает откорректированную линзой картинку. Но изначально видеокарта обрисовывает изображение в обычной плоской проекции, а часть периферийного изображения потом отпадает.

Технология Lens Matched Shading может разбить изображение на четыре квадранта и сделать последующую выборку пикселей. То есть картинка изначально проецируется на несколько плоскостей, которые симулируют изогнутую форму линзы.

Итоговое изображения рендерится в меньшем разрешении, ненужные зоны отсекаются. Изначально в Oculus Rift на один глаз идет изображение 1,1 мегапиксель, но первоначальной плоской проекции оно рендерится в разрешении 2,1 мегапиксель. Благодаря Lens Matched Shading начальное изображение будет 1,4 мегапикселя. Это позволяет значительно увеличить производительность в VR-режиме.

Виртуальная реальность является перспективным направлением, которое расширит опыт взаимодействия с виртуальной средой и подарит игрокам новые ощущения. NVIDIA активно поддерживает развитие VR. Одним из сдерживающих факторов для популяризации VR-систем являются высокие требования к производительности графического ускорителя. Специальные технологии и аппаратная оптимизация способствует качественному росту быстродействия именно в этом направлении. Компания выпустила комплексный набор VRWorks из специальных API, библиотек и программных движков. В его состав входят в том числе средства работы с Single Pass Stereo и Lens Matched Shading. Сюда также входит технология MultiRes Shading, которая позволяет изменять разрешение в боковых зонах при VR-рендеринге с целью снижения нагрузки.

Эффект присутствия связан не только с визуальными ощущениями, но и с другими чувствами. Звук тоже играет важную роль. Поэтому NVIDIA разработала технологию VRWorks Audio для воссоздания реалистичного звука с учетом положения источника звуковых волн и отражения их от поверхностей. Технология использует движок OptiX, который изначально использовался для просчета освещения по методу трассировки лучей. Отслеживается путь звуковых «лучей» от источника до отражающих поверхностей и обратно. Этот прогрессивный метод позволит воссоздавать реалистичный звук с учетом акустических особенностей виртуального помещения и с наложением отраженных звуков. Подробнее об NVIDIA VRWorks Audio в видеоролике:

Усилить эффект погружения можно за счет взаимодействия с виртуальной средой. Сейчас интерактивность реализована за счет позиционного слежения и отслеживания ручных контроллеров. На базе PhysX создан механизм, который определяет, будет ли взаимодействие при виртуальном контакте с тем или иным объектом. Также с PhysX можно реализовать достоверные физически эффекты при воздействии на виртуальную среду.

В новом поколении видеокарт появилась поддержка VR SLI. Этот режим предусматривает, что обработкой изображения для каждого глаза в VR-режиме займется отдельный GPU. Такой способ исключает задержки при работе SLI и обеспечивает лучшую производительность. Поддержка VR SLI будет внедрена в движки Unreal Engine 4 и Unity, что позволяет надеяться на большую популяризацию этой технологии по мере роста доступности систем виртуальной реальности.

Простая технология SLI тоже обновилась. Старшие видеокарты GeForce всегда имели два разъема под мостики SLI. Этими мостики нужны для коммутации всех видеокарт друг с другом в режимах 3-Way и 4-Way SLI. Теперь в простом SLI две видеокарты могут использовать сразу два интерфейса обмена данными, повышая общую пропускную способность.

Новый способ коммутации требует новых сдвоенных мостиков SLI HB. Поддержка совместного режима при подключении по простому одинарному мостику сохраняется. Сдвоенный мостик рекомендуется для высоких разрешений — 4К, 5К и мультимониторных систем. Скоростной мостик рекомендуется также при 2K с монитором 120 Гц и быстрее. В более простых режимах можно обойтись мостиком старого образца.

У GeForce GTX 1080 повышена скорость самого интерфейса — с 400 МГц до 650 МГц. Она может быть реализована с новыми мостиками и с некоторыми версиями старого формата. Увеличение скорости обмена данными в SLI обеспечивает более плавную смену кадров и некоторый рост производительности в тяжелых режимах.

Возможности рендеринга на нескольких GPU в DirectX 12 были расширены. Поддерживается два основных типа работы с такими конфигурациями: Multi Display Adapter (MDA) и Linked Display Adapter (LDA). Первый позволяет работать совместно разным GPU, в том числе объединяя потенциал интегрированной и внешней графики. LDA рассчитан для совместного использования аналогичных решений. Implicit LDA по сути используется в SLI, благодаря чему обеспечивается широкая совместимость с приложениями на программном уровне. Explicit LDA и MDA дают больше возможностей разработчикам, но обеспечение такого режима в каждом приложении ложится на их плечи.

Также стоит отметить, что официально заявлено о поддержке SLI только в конфигурации из двух GeForce GTX 1080. Более сложные конфигурации теоретически возможны в режимах Explicit LDA и MDA. Интересно, что при этом NVIDIA предлагает разблокировать режим 3-Way и 4-Way при помощи специального кода для энтузиастов. Для этого нужно будет сделать специальный запрос на сайте компании по идентификатору своего GPU.

В GPU GP104 появилась поддержка Fast Sync. Эта технология является альтернативой включенной или выключенной вертикальной синхронизации. В динамичных играх (особенно многопользовательских) высокая частота кадров обеспечивает максимальную отзывчивость на действия пользователя. Но при превышении частоты обновления монитора возможны артефакты в виде разрывов изображения. Это нейтрализует вертикальная синхронизация, что обеспечивает попутно и некоторые задержки. Fast Sync позволяет выводить максимальное количество кадров без вероятных разрывов. Это обеспечивается аппаратными изменениями в конвейере вывода изображения. Вместо традиционного двойного буфера используется тройной, и выводится только полностью отрендеренный кадр.

С Fast Sync можно играть на обычном мониторе при 100-200 fps без визуальных артефактов и с минимальными задержками, как в обычном режиме с отключенным VSync. Ниже отражены результаты исследования задержек при выводе изображения в разных режимах в игре Counter-Strike: Global Offensive.

Как видим, небольшая разница между Fast Sync и выключенным VSync есть, но она не идет ни в какое сравнение относительно задержек вывода кадров с активным VSync.

Если же говорить не о максимальной отзывчивости, а о максимальной плавности изображения, то она обеспечивается технологией G-Sync, которая реализуется в связке со специальными мониторами. G-Sync обеспечивает полную аппаратную синхронизацию выводимых кадров с частотой обновления экрана.

GeForce GTX 1080 может выводить изображение через DVI, HDMI и DisplayPort. Поддерживается DisplayPort 1.2 и HDMI 2.0b с HDCP 2.2, но видеокарта готова и к DisplayPort 1.3/1.4. В случае использования последних возможен вывод изображения 4K при 120 Гц или 8K (7680x4320) при 60 Гц через два кабеля DisplayPort 1.3. Для сравнения нужно отметить, что GeForce GTX 980 может выводить только 5120x3200 при коммутации через два кабеля DisplayPort.

Стандартная версия GeForce GTX 1080 оснащается тремя портами DisplayPort, одним HDMI и одним Dual-Link DVI.

Процессор GP104 получил улучшенный блок декодирования/кодирования видео с поддержкой стандарта PlayReady 3.0 (SL3000) и аппаратного декодирования HEVC с поддержкой высококачественного видео 4K/8K. Полные возможности GeForce GTX 1080 в сравнении с GeForce GTX 980 отражены в нижней таблице.

В списке инноваций GeForce GTX 1080 поддержка контента и дисплеев HDR. Этот стандарт является крупный прорывом в технологиях, обеспечивая охват видимого цветового пространства в 75% вместо 33% у RGB при глубине цвета 10/12 бит. Такие дисплеи отображают больше оттенков, имеют выше яркость и глубже контраст, позволяя рассмотреть больше тонких цветовых нюансов. На данный момент уже выпускаются телевизоры с поддержкой HDR, мониторы ожидаются в следующем году.

Кроме декодирования HDR поддерживается и аппаратное кодирование, что позволит записывать видео такого стандарта. А в скором времени будет добавлена функция HDR-стриминга для игровой консоли Shield.

NVIDIA работает с разработчиками над тем, чтобы привнести HDR в сегмент компьютерных игр. В результате поддержку HDR получат Rise of the Tomb Raide , Tom Clancy"s The Division , The Talos Principle , Paragon, вторая часть Shadow Warrior и другие игры.

Современный гейминг меняется, у игроков проявляются новые интересы и желание взглянуть на любимую игру под новым углом. Иногда обычный скриншот превращается в нечто большее, чем простой кадр из игры. А с NVIDIA Ansel каждый скриншот может стать необычным. Это новая технология для захвата изображений с набором специальных возможностей. Ansel позволяет накладывать фильтры, улучшать изображение, использовать свободную камеру и создавать панорамы. Для полной функциональности нужна поддержка со стороны приложения. Для этого в Ansel предусмотрена простая интеграция. К примеру, для интеграции Ansel в The Witcher 3 разработчики добавили лишь 150 строчек кода, а для логической игры Witness понадобилось 40 строчек кода.

Ansel переводит игру в режим паузы и далее позволяет выполнять разные операции. Например, можно менять камеру и выбирать любой ракурс. Какие-то ограничения возможны только в случае, если разработчики намеренно ограничат движение свободной камеры.

Можно повышать разрешение конечного изображения и увеличивать уровень LOD, чтобы добиться максимальной четкости всех деталей. Повышение разрешение сочетается с дополнительным сглаживанием для лучшего эффекта.

Более того, Ansel позволяет создавать гигантские изображения вплоть до 4,5 гигапикселей. Такие изображения сшиваются из отдельных фрагментов, что выполняется на аппаратном уровне. Также на итоговое изображение можно наложить различные пост-эффекты. Изображение можно сохранить а формате RAW или в EXR с 16-битным кодированием цвета. Это даст широкие возможности для последующей работы с ним.

Можно создавать стереопанормы и 360-градусные снимки, которые потом можно рассматривать в очках виртуальной реальности.

Есть огромное множество эффектов, которые можно применять к захватываемому изображению — зернистость, Bloom, сепия, линзовые эффекты и много другого, вплоть до создания картинки с эффектом рыбьего глаза. Широкие возможности Ansel поражают. Игрок получает такие возможности, которых ранее просто не было.

После изучения архитектурных особенностей и новых технологий нужно взглянуть на саму видеокарту GeForce GTX 1080. Референсная версия внешне напоминает предыдущие модели со слегка обновленным дизайном и более резкими очертаниями.

Обратная стороны защищена двумя пластинами, что напоминает «бронирование» GeForce GTX 980.

Общая конструкция охлаждения осталась без изменений. Кулер работает по принципу турбины. Есть крупное основание, ребристый радиатор для охлаждения GPU и дополнительный радиатор в районе узла питания для лучшего охлаждения силовых элементов.

Все остальные нюансы мы рассмотрим в отдельной статье, где заодно проведем и сравнительное тестирование. Если говорить о предварительных оценках самого производителя, то NVIDIA сравнивает новинку с GeForce GTX 980 и говорит о преимуществе около 70% в простых играх и разрыве более чем в 2,5 раза в VR-режиме. Разница с GeForce GTX 980 Ti будет поменьше, но о каких-то конкретных значениям можно будет говорить после практических тестов.

Выводы

Настало время подвести итоги нашего теоретического знакомства с GeForce GTX 1080. Эта видеокарта на данный момент является самым продвинутым в технологическом плане продуктом среди графических ускорителей. В GeForce GTX 1080 впервые используется 16-нм процессор архитектуры Pascal и новая память GDDR5X. Сама архитектура является развитием Maxwell с оптимизациями и новыми функциями для DirectX 12. Архитектурные улучшения в значительной мере усиливаются за счет существенного роста частот GPU и памяти. Очень значительный прогресс в сфере VR-рендеринга благодаря новым технологиям, ускоряющим работу в этом режиме. Прогрессивным нововведением является поддержка HDR-дисплеев и соответствующего контента. Благодаря новому блоку обработки видео еще больше возможностей по воспроизведению и записи видео высокого разрешения, включая работу с форматом HDR. Любители сверхдинамичных мультиплеерных игр оценят технологию Fast Sync. Ценителей виртуальных красот порадуют возможности Ansel. Покупая GeForce GTX 1080, вы в итоге получите не просто самый быстрый на данный момент видеоускоритель, но и самый функциональный.

Официально данная модель станет доступна покупателям после 27 мая. Первыми в продажу поступят версии референсного дизайна Founders Edition. Они будут иметь более высокий ценник. Чуть позже выйдут нестандартные варианты, стоимость которых на $100 ниже. Ну а мы к моменту появления GeForce GTX 1080 на отечественном рынке постараемся в рамках большого тестирования в полной мере раскрыть их потенциал в сравнении с существующими топовыми видеокартами.

Параметр Значение
Кодовое имя чипа GP104
Технология производства 16 нм FinFET
Количество транзисторов 7,2 млрд.
Площадь ядра 314 мм²
Архитектура
Аппаратная поддержка DirectX
Шина памяти
1607 (1733) МГц
Вычислительные блоки 20 потоковых мультипроцессоров, включающих 2560 скалярных ALU для расчетов с плавающей запятой в рамках стандарта IEEE 754-2008;
Блоки текстурирования 160 блоков текстурной адресации и фильтрации с поддержкой FP16- и FP32-компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Поддержка мониторов
Спецификации референсной видеокарты GeForce GTX 1080
Параметр Значение
Частота ядра 1607 (1733) МГц
2560
Количество текстурных блоков 160
Количество блоков блендинга 64
Эффективная частота памяти 10000 (4×2500) МГц
Тип памяти GDDR5X
Шина памяти 256-бит
Объем памяти 8 ГБ
320 ГБ/с
около 9 терафлопс
103 гигапикселей/с
257 гигатекселей/с
Шина PCI Express 3.0
Разъемы
Энергопотребление до 180 Вт
Дополнительное питание Один 8-контактный разъем
2
Рекомендуемая цена $599-699 (США), 54990 руб (Россия)

Новая модель видеокарты GeForce GTX 1080 получила логичное для первого решения новой серий GeForce наименование - она отличается от своего прямого предшественника только измененной цифрой поколения. Новинка не просто заменяет в текущей линейке компании топовые решения, но и на какое-то время стала флагманом новой серии, пока не выпустили Titan X на GPU еще большей мощности. Ниже ее в иерархии располагается также уже анонсированная модель GeForce GTX 1070, основанная на урезанной версии чипа GP104, которую мы еще рассмотрим ниже.

Рекомендованные цены на новую видеоплату Nvidia составляют $599 и $699 для обычных версий и специального издания Founders Edition (см. далее), соответственно, и это довольно неплохое предложение с учетом того, что GTX 1080 опережает не только GTX 980 Ti, но и Titan X. На сегодня новинка является лучшим по производительности решением на рынке одночиповых видеокарт без каких-либо вопросов, и при этом она стоит дешевле самых производительных видеокарт предыдущего поколения. Пока конкурента от AMD у GeForce GTX 1080 по сути нет, поэтому в Nvidia смогли установить такую цену, которая их устраивает.

Рассматриваемая видеокарта основана на чипе GP104, имеющем 256-битную шину памяти, но новый тип памяти GDDR5X работает на весьма высокой эффективной частоте в 10 ГГц, что дает высокую пиковую пропускную способность в 320 ГБ/с - что почти на уровне GTX 980 Ti с 384-битной шиной. Объем установленной на видеокарту памяти с такой шиной мог быть равен 4 или 8 ГБ, но ставить меньший объем для столь мощного решения в современных условиях было бы глупо, поэтому GTX 1080 совершенно логично получила 8 ГБ памяти, и этого объема хватит для запуска любых 3D-приложений с любыми настройками качества на несколько лет вперед.

Печатная плата GeForce GTX 1080 по понятным причинам прилично отличается от предыдущих PCB компании. Значение типичного энергопотребления для новинки составляет 180 Вт - это несколько выше, чем у GTX 980, но заметно ниже, чем у менее производительных Titan X и GTX 980 Ti. Референсная плата имеет привычный набор разъемов для присоединения устройств вывода изображения: один Dual-Link DVI, один HDMI и три DisplayPort.

Референсный дизайн Founders Edition

Еще при анонсе GeForce GTX 1080 в начале мая было объявлено специальное издание видеокарты под названием Founders Edition, имеющее более высокую цену по сравнению с обычными видеокартами партнеров компании. По сути, это издание является референсным дизайном карты и системы охлаждения, и производится оно самой компанией Nvidia. Можно по-разному относиться к таким вариантам видеокарт, но разработанный инженерами компании референсный дизайн и произведенная с применением качественных компонентов конструкция имеет своих поклонников.

А вот будут ли они отдавать на несколько тысяч рублей больше за видеокарту от самой Nvidia - это вопрос, ответ на который может дать только практика. В любом случае, поначалу в продаже появятся именно референсные видеокарты от Nvidia по повышенной цене, и выбирать особенно не из чего - так бывает при каждом анонсе, но референсная GeForce GTX 1080 отличается тем, что в таком виде ее планируется продавать на всем протяжении срока ее жизни, вплоть до выхода решений следующего поколения.

В Nvidia считают, что это издание имеет свои достоинства даже перед лучшими произведениями партнеров. Например, двухслотовый дизайн кулера позволяет с легкостью собирать на основе этой мощной видеокарты как игровые ПК сравнительно небольшого форм-фактора, так и многочиповые видеосистемы (даже несмотря на нерекомендуемый компанией режим работы в трех- и четырехчиповом режиме). GeForce GTX 1080 Founders Edition имеет некоторые преимущества в виде эффективного кулера с использованием испарительной камеры и вентилятора, выбрасывающего нагретый воздух из корпуса - это первое такое решение Nvidia, потребляющее менее 250 Вт энергии.

По сравнению с предыдущими референсными дизайнами продуктов компании, схема питания была модернизирована с четырехфазной до пятифазной. В Nvidia говорят и об улучшенных компонентах, на которых основана новинка, также были снижены электрические помехи, позволяющие улучшить стабильность напряжения и разгонный потенциал. В результате всех улучшений энергоэффективность референсной платы увеличилась на 6% по сравнению с GeForce GTX 980.

А для того, чтобы отличаться от «обычных» моделей GeForce GTX 1080 и внешне, для Founders Edition разработали необычный «рубленый» дизайн корпуса. Который, правда, наверняка привел также и к усложнению формы испарительной камеры и радиатора (см. фото), что возможно и послужило одним из поводов для доплаты в $100 за такое специальное издание. Повторимся, что в начале продаж особого выбора у покупателей не будет, но в дальнейшем можно будет выбрать как решение с собственным дизайном от одного из партнеров компании, так и в исполнении самой Nvidia.

Новое поколение графической архитектуры Pascal

Видеокарта GeForce GTX 1080 стала первым решением компании на основе чипа GP104, относящегося к новому поколению графической архитектуры Nvidia - Pascal. Хотя новая архитектура взяла в основу решения, отработанные еще в Maxwell, в ней есть и важные функциональные отличия, о которых мы напишем далее. Главным же изменением с глобальной точки зрения стал новый технологический процесс, по которому выполнен новый графический процессор.

Применение техпроцесса 16 нм FinFET при производстве графических процессоров GP104 на фабриках тайваньской компании TSMC дало возможность значительно повысить сложность чипа при сохранении сравнительно невысокой площади и себестоимости. Сравните количество транзисторов и площадь чипов GP104 и GM204 - они близки по площади (кристалл новинки даже чуть меньше физически), но чип архитектуры Pascal имеет заметно большее количество транзисторов, а соответственно и исполнительных блоков, в том числе обеспечивающих новую функциональность.

С архитектурной точки зрения, первый игровой Pascal весьма похож на аналогичные решения архитектуры Maxwell, хотя есть и некоторые отличия. Как и Maxwell, процессоры архитектуры Pascal будут иметь разную конфигурацию вычислительных кластеров Graphics Processing Cluster (GPC), потоковых мультипроцессоров Streaming Multiprocessor (SM) и контроллеров памяти. Мультипроцессор SM - это высокопараллельный мультипроцессор, который планирует и запускает варпы (warp, группы из 32 потоков команд) на CUDA-ядрах и других исполнительных блоках в мультипроцессоре. Подробные данные об устройстве всех этих блоков вы можете найти в наших обзорах предыдущих решений компании Nvidia.

Каждый из мультипроцессоров SM спарен с движком PolyMorph Engine, который обрабатывает текстурные выборки, тесселяцию, трансформацию, установку вершинных атрибутов и коррекцию перспективы. В отличие от предыдущих решений компании, PolyMorph Engine в чипе GP104 также содержит новый блок мультипроецирования Simultaneous Multi-Projection, о котором мы еще поговорим ниже. Комбинация мультипроцессора SM с одним движком Polymorph Engine традиционно для Nvidia называется TPC - Texture Processor Cluster.

Всего чип GP104 в составе GeForce GTX 1080 содержит четыре кластера GPC и 20 мультипроцессоров SM, а также восемь контроллеров памяти, объединенных с блоками ROP в количестве 64 штук. Каждый кластер GPC имеет выделенный движок растеризации и включает в себя пять мультипроцессоров SM. Каждый мультипроцессор, в свою очередь, состоит из 128 CUDA-ядер, 256 КБ регистрового файла, 96 КБ разделяемой памяти, 48 КБ кэш-памяти первого уровня и восьми текстурных блоков TMU. То есть, всего в GP104 содержится 2560 CUDA-ядер и 160 блоков TMU.

Также графический процессор, на котором основана видеокарта GeForce GTX 1080, содержит восемь 32-битных (в отличие от 64-битных, применяющихся ранее) контроллеров памяти, что дает нам итоговую 256-битную шину памяти. К каждому из контроллеров памяти привязано по восемь блоков ROP и 256 КБ кэш-памяти второго уровня. То есть, всего чип GP104 содержит 64 блоков ROP и 2048 КБ кэш-памяти второго уровня.

Благодаря архитектурным оптимизациям и новому техпроцессу, первый игровой Pascal стал самым энергоэффективным графическим процессором за все время. Причем, вклад в это есть как со стороны одного из самых совершенных технологических процессов 16 нм FinFET, так и от проведенных оптимизаций архитектуры в Pascal, по сравнению с Maxwell. В Nvidia смогли повысить тактовую частоту даже больше, чем они рассчитывали при переходе на новый техпроцесс. GP104 работает на более высокой частоте, чем работал бы гипотетический GM204, выпущенный при помощи техпроцесса 16 нм. Для этого инженерам Nvidia пришлось тщательно проверить и оптимизировать все узкие места предыдущих решений, не дающие разогнаться выше определенного порога. В результате, новая модель GeForce GTX 1080 работает более чем на 40% повышенной частоте, по сравнению с GeForce GTX 980. Но это еще не все изменения, связанные с частотой работы GPU.

Технология GPU Boost 3.0

Как мы хорошо знаем по предыдущим видеокартам компании Nvidia, в своих графических процессорах они применяют аппаратную технологию GPU Boost, предназначенную для увеличения рабочей тактовой частоты GPU в режимах, когда он еще не достиг пределов по энергопотреблению и тепловыделению. За прошедшие годы этот алгоритм претерпел множество изменений, и в видеочипе архитектуры Pascal применяется уже третье поколение этой технологии - GPU Boost 3.0, основным нововведением которого стала более тонкая установка турбо-частот, в зависимости от напряжения.

Если вы вспомните принцип работы предыдущих версий технологии, то разница между базовой частотой (гарантированное минимальное значение частоты, ниже которого GPU не опускается, как минимум в играх) и турбо-частотой была фиксированной. То есть, турбо-частота всегда была на определенное количество мегагерц выше базовой. В GPU Boost 3.0 появилась возможность установки смещений турбо-частот для каждого напряжения по отдельности. Проще всего это понять по иллюстрации:

Слева указан GPU Boost второй версии, справа - третьей, появившейся в Pascal. Фиксированная разница между базовой и турбо-частотами не давала раскрыть возможности GPU полностью, в некоторых случаях графические процессоры предыдущих поколений могли работать быстрее на установленном напряжении, но фиксированное превышение турбо-частоты не давало сделать этого. В GPU Boost 3.0 такая возможность появилась, и турбо-частота может устанавливаться для каждого из индивидуальных значений напряжения, полностью выжимая все соки из GPU.

Для того, чтобы управлять разгоном и установить кривую турбо-частоты, требуются удобные утилиты. Сама Nvidia этим не занимается, но помогает своим партнерам создать подобные утилиты для облегчений разгона (в разумных пределах, конечно). К примеру, новые функциональные возможности GPU Boost 3.0 уже раскрыты в EVGA Precision XOC, включающей специальные сканер разгона, автоматически находящий и устанавливающий нелинейную разницу между базовой частотой и турбо-частотой для разных значений напряжения при помощи запуска встроенного теста производительности и стабильности. В результате у пользователя получается кривая турбо-частоты, идеально соответствующая возможностям конкретного чипа. Которую, к тому же, можно как угодно модифицировать в ручном режиме.

Как вы видите на скриншоте утилиты, в дополнение к информации о GPU и системе, есть также настройки для разгона: Power Target (определяет типичное энергопотребление при разгоне, в процентах от стандартного), GPU Temp Target (максимально допустимая температура ядра), GPU Clock Offset (превышение над базовой частотой для всех значений напряжения), Memory Offset (превышение частоты видеопамяти над значением по умолчанию), Overvoltage (дополнительная возможность для повышения напряжения).

Утилита Precision XOC включает три режима разгона: основной Basic, линейный Linear и ручной Manual. В основном режиме можно установить единое значение превышения частоты (фиксированную турбо-частоту) над базовой, как это было для предыдущих GPU. Линейный режим позволяет установить линейное изменение частоты от минимального до максимального значений напряжения для GPU. Ну и в ручном режиме можно выставить уникальные значения частоты GPU для каждой точки напряжения на графике.

В составе утилиты есть также специальный сканер для автоматического разгона. Можно или установить собственные уровни частоты или позволить утилите Precision XOC просканировать GPU на всех напряжениях и найти максимально стабильные частоты для каждой точки на кривой напряжения и частоты полностью автоматически. В процессе сканирования Precision XOC постепенно добавляет частоту GPU и проверяет его работу на стабильность или появление артефактов, строя идеальную кривую частот и напряжений, которая будет уникальна для каждого конкретного чипа.

Этот сканер можно настроить под свои собственные требования, задав временной отрезок тестирования каждого значения напряжения, минимум и максимум проверяемой частоты, и ее шаг. Понятно, что для достижения стабильных результатов лучше будет выставить небольшой шаг и приличную продолжительность тестирования. В процессе тестирования может наблюдаться нестабильная работа видеодрайвера и системы, но если сканер не зависнет, то восстановит работу и продолжит нахождение оптимальных частот.

Новый тип видеопамяти GDDR5X и улучшенное сжатие

Итак, мощность графического процессора заметно выросла, а шина памяти осталась всего лишь 256-битной - не будет ли пропускная способность памяти ограничивать общую производительность и что с этим можно делать? Похоже, что перспективная HBM-память второго поколения все еще слишком дорога в производстве, поэтому пришлось искать другие варианты. Еще с момента появления GDDR5-памяти в 2009 году, инженеры компании Nvidia исследовали возможности использования новых типов памяти. В результате, разработки пришли к внедрению нового стандарта памяти GDDR5X - самого сложного и продвинутого на сегодняшний момент стандарта, дающего скорость передачи 10 Gbps.

Nvidia приводит интересный пример того, насколько это быстро. Между переданными битами проходит всего 100 пикосекунд - за такое время луч света пройдет расстояние всего лишь в один дюйм (около 2,5 см). И при использовании GDDR5X-памяти цепи приема-передачи данных должны менее чем за половину этого времени выбрать значение переданного бита, до того, как будет прислан следующий - это просто чтобы вы понимали, до чего дошли современные технологии.

Чтобы добиться такой скорости работы, потребовалась разработка новой архитектуры системы ввода-вывода данных, потребовавшей нескольких лет совместной разработки с производителями чипов памяти. Кроме возросшей скорости передачи данных, выросла и энергоэффективность - чипы памяти стандарта GDDR5X используют пониженное напряжение в 1,35 В и произведены по новым технологиям, что дает то же потребление энергии при на 43% большей частоте.

Инженерам компании пришлось перерабатывать линии передачи данных между ядром GPU и чипами памяти, больше внимания обращать на предотвращение потери и деградацию сигнала на всем пути от памяти к GPU и обратно. Так, на приведенной выше иллюстрации показан захваченный сигнал в виде большого симметричного «глаза», что говорит о хорошей оптимизации всей цепи и относительной легкости захвата данных из сигнала. Причем, описанные выше изменения привели не только к возможности применения GDDR5X на 10 ГГц, но также и должны помочь получить высокую ПСП на будущих продуктах, использующих более привычную GDDR5-память.

Хорошо, более чем 40% прироста в ПСП от применения новой памяти мы получили. Но не маловато ли этого? Для дальнейшего увеличения эффективности использования полосы пропускания памяти в Nvidia продолжили улучшать внедренное еще в предыдущих архитектурах продвинутое сжатие данных. Подсистема памяти в GeForce GTX 1080 использует улучшенные и несколько новых техник по сжатию данных без потерь, предназначенные для снижения требований к ПСП - уже четвертое поколение внутричипового сжатия.

Алгоритмы сжатия данных в памяти приносят сразу несколько положительных моментов. Сжатие снижает количество записываемых данных в память, то же самое касается данных, пересылаемых из видеопамяти в кэш-память второго уровня, что улучшает эффективность использования L2-кэша, так как сжатый тайл (блок из нескольких пикселей фреймбуфера) имеет меньший размер, чем несжатый. Также уменьшается количество данных, пересылаемых между разными точками, вроде текстурного модуля TMU и фреймбуфера.

Конвейер сжатия данных в GPU использует несколько алгоритмов, которые определяются в зависимости от «сжимаемости» данных - для них подбирается лучший из имеющихся алгоритмов. Одним из самых важных является алгоритм дельта-кодирования данных о цвете пикселей (delta color compression). Этот способ сжатия кодирует данные в виде разницы между последовательными значениями вместо самих данных. GPU вычисляет разницу в цветовых значениях между пикселями в блоке (тайле) и сохраняет блок как некий усредненный цвет для всего блока плюс данные о разнице в значениях для каждого пикселя. Для графических данных такой метод обычно хорошо подходит, так как цвет в пределах небольших тайлов для всех пикселей зачастую отличается не слишком сильно.

Графический процессор GP104 в составе GeForce GTX 1080 поддерживает большее количество алгоритмов сжатия по сравнению с предыдущими чипами архитектуры Maxwell. Так, алгоритм сжатия 2:1 стал более эффективным, а в дополнение к нему появились два новых алгоритма: режим сжатия 4:1, подходящий для случаев, когда разница в значении цвета пикселей блока очень невелика, и режим 8:1, сочетающий алгоритм постоянного сжатия с соотношением 4:1 блоков размером 2×2 пикселя с двукратным сжатием дельты между блоками. Когда сжатие совсем невозможно, оно не используется.

Впрочем, в реальности последнее бывает весьма нечасто. В этом можно убедиться по примерам скриншотов из игры Project CARS, которые привела Nvidia чтобы проиллюстрировать повышенную степень сжатия в Pascal. На иллюстрациях пурпурным закрашены те тайлы кадрового буфера, которые смог сжать графический процессор, а не поддающиеся сжатию без потерь остались с оригинальным цветом (сверху - Maxwell, снизу - Pascal).

Как видите, новые алгоритмы сжатия в GP104 действительно работают гораздо лучше, чем в Maxwell. Хотя старая архитектура также смогла сжать большинство тайлов в сцене, большое количество травы и деревьев по краям, а также детали машины не подвергаются устаревшим алгоритмам сжатия. Но при включении в работу новых техник в Pascal, несжатым осталось очень небольшое количество участков изображения - улучшенная эффективность налицо.

В результате улучшений в сжатии данных, GeForce GTX 1080 способен значительно снизить количество пересылаемых данных в каждом кадре. Если говорить о цифрах, то улучшенное сжатие экономит дополнительно около 20% эффективной полосы пропускания памяти. В дополнение к более чем на 40% повышенной ПСП у GeForce GTX 1080 относительно GTX 980 от использования GDDR5X-памяти, все вместе это дает около 70% прироста в эффективном ПСП, по сравнению с моделью прошлого поколения.

Поддержка асинхронных вычислений Async Compute

Большинство современных игр используют сложные вычисления в дополнение к графическим. К примеру, вычисления при расчете поведения физических тел вполне можно проводить не до или после графических вычислений, а одновременно с ними, так как они не связаны друг с другом и не зависят друг от друга в пределах одного кадра. Также в пример можно привести постобработку уже отрендеренных кадров и обработку аудиоданных, которые тоже можно исполнять параллельно с рендерингом.

Еще одним ярким примером использования функциональности служит техника асинхронного искажения времени (Asynchronous Time Warp), используемая в системах виртуальной реальности для того, чтобы изменить выдаваемый кадр в соответствии с движением головы игрока прямо перед самым его выводом, прерывая рендеринг следующего. Подобная асинхронная загрузка мощностей GPU позволяет повысить эффективность использования его исполнительных блоков.

Подобные нагрузки создают два новых сценария использования GPU. Первый из них включает накладывающиеся загрузки, так как многие типы задач не используют возможности графических процессоров полностью, и часть ресурсов простаивает. В таких случаях можно просто запустить на одном GPU две разные задачи, разделяющие его исполнительные блоки для получения более эффективного использования - например, PhysX-эффекты, выполняющиеся совместно с 3D-рендерингом кадра.

Для улучшения работы этого сценария, в архитектуре Pascal появилась динамическая балансировка загрузки (dynamic load balancing). В предыдущей архитектуре Maxwell перекрывающиеся нагрузки были выполнены в виде статического распределения ресурсов GPU на графические и вычислительные. Такой подход эффективен при условии, что баланс между двумя нагрузками примерно соответствует разделению ресурсов и задачи выполняются одинаково по времени. Если же неграфические вычисления выполняются дольше графических, и обе ожидают завершения общей работы, то часть GPU оставшееся время будет простаивать, что вызовет снижение общей производительности и сведет всю выгоду на нет. Аппаратная динамическая балансировка загрузки же позволяет использовать освободившиеся ресурсы GPU сразу же как они станут доступными - для понимания приведем иллюстрацию.

Существуют и задачи, критичные к времени исполнения, и это - второй сценарий асинхронных вычислений. Например, исполнение алгоритма асинхронного искажения времени в VR должно завершиться до развертки (scan out) или кадр будет отброшен. В таком случае, GPU должен поддерживать очень быстрое прерывание задачи и переключение на другую, чтобы снять менее критическую задачу с исполнения на GPU, освободив его ресурсы для критически важных задач - это называется preemption.

Одна команда рендеринга от игрового движка может содержать сотни вызовов функций отрисовки, каждый вызов draw call, в свою очередь, содержит сотни обрабатываемых треугольников, каждый из которых содержит сотни пикселей, которые нужно рассчитать и отрисовать. В традиционном подходе на GPU используется прерывание задач только на высоком уровне, и графический конвейер вынужден ждать завершения всей этой работы перед переключением задачи, что в результате приводит к очень большим задержкам.

Чтобы исправить это, в архитектуре Pascal впервые была введена возможность прерывания задачи на пиксельном уровне - Pixel Level Preemption. Исполнительные блоки графического процессора Pascal могут постоянно отслеживать прогресс выполнения задач рендеринга, и когда прерывание будет запрошено, они могут остановить исполнение, сохранив контекст для дальнейшего завершения, быстро переключившись на другую задачу.

Прерывание и переключение на уровне потока для вычислительных операций работает аналогично прерыванию на пиксельном уровне для графических вычислений. Вычислительные нагрузки состоят из нескольких сеток, каждая из которых содержит множество потоков. Когда получен запрос на прерывание, выполняемые на мультипроцессоре потоки заканчивают исполнение. Другие блоки сохраняют собственное состояние чтобы продолжить с того же момента в дальнейшем, и GPU переключается на другую задачу. Весь процесс переключения задач занимает менее чем 100 микросекунд после того, как выполняемые потоки завершают работу.

Для игровых нагрузок, сочетание прерываний на пиксельном уровне для графических, и прерывания на уровне потоков для вычислительных задач дает графическим процессорам архитектуры Pascal возможность быстрого переключения между задачами с минимальными потерями времени. А для вычислительных задач на CUDA, также возможно прерывание с минимальной гранулярностью - на уровне инструкций. В таком режиме все потоки останавливают выполнение сразу, немедленно переключаясь на другую задачу. Этот подход требует сохранения большего количества информации о состоянии всех регистров каждого потока, но в некоторых случаях неграфических вычислений он вполне оправдан.

Использование быстрого прерывания и переключения задач в графических и вычислительных задачах было добавлено в архитектуру Pascal для того, чтобы графические и неграфические задачи могли прерываться на уровне отдельных инструкций, а не целых потоков, как было в Maxwell и Kepler. Эти технологии способны улучшить асинхронное исполнение различных нагрузок на графический процессор и улучшить отзывчивость при одновременном выполнении нескольких задач. На мероприятии Nvidia показывали демонстрацию работы асинхронных вычислений на примере вычисления физических эффектов. Если без асинхронных вычислений производительность была на уровне 77-79 FPS, то с включением этих возможностей частота кадров выросла до 93-94 FPS.

Мы уже приводили в пример одну из возможностей применения этой функциональности в играх в виде асинхронного искажения времени в VR. На иллюстрации показана работа этой технологии с традиционным прерыванием (preemption) и с быстрым. В первом случае, процесс асинхронного искажения времени стараются выполнить как можно позднее, но до начала обновления изображения на дисплее. Но работа алгоритма должна быть отдана на исполнение в GPU несколькими миллисекундами ранее, так как без быстрого прерывания нет возможности точно выполнить работу в нужный момент, и GPU простаивает некоторое время.

В случае точного прерывания на уровне пикселей и потоков (на иллюстрации справа), такая возможность дает большую точность в определении момента прерывания, и асинхронное искажение времени может быть запущено значительно позже с уверенностью в завершении работы до начала обновления информации на дисплее. А простаивающий некоторое время в первом случае GPU можно загрузить какой-то дополнительной графической работой.

Технология мультипроецирования Simultaneous Multi-Projection

В новом графическом процессоре GP104 появилась поддержка новой технологии мультипроецирования (Simultaneous Multi-Projection - SMP), позволяющей GPU отрисовывать данные на современных системах вывода изображения более эффективно. SMP позволяет видеочипу одновременно выводить данные в несколько проекций, для чего потребовалось ввести новый аппаратный блок в GPU в состав движка PolyMorph в конце геометрического конвейера перед блоком растеризации. Этот блок отвечает за работу с несколькими проекциями для единого потока геометрии.

Движок мультипроецирования обрабатывает геометрические данные одновременно для 16 заранее сконфигурированных проекций, объединяющих точку проекции (камеры), эти проекции можно независимо вращать или наклонять. Так как каждый геометрический примитив может появиться одновременно в нескольких проекциях, движок SMP обеспечивает такую функциональность, позволяя приложению дать инструкции видеочипу для репликации геометрии до 32 раз (16 проекций при двух центрах проецирования) без дополнительной обработки.

Весь процесс обработки аппаратно ускорен, и так как мультипроецирование работает после геометрического движка, ему не нужно повторять несколько раз все стадии обработки геометрии. Сэкономленные ресурсы важны в условиях ограничения скорости рендеринга производительностью обработки геометрии, вроде тесселяции, когда одна и та же геометрическая работа выполняется несколько раз для каждой проекции. Соответственно, в пиковом случае, мультипроецирование может сократить необходимость в обработке геометрии до 32 раз.

Но зачем все это нужно? Есть несколько хороших примеров, где технология мультипроецирования может быть полезной. Например, многомониторная система из трех дисплеев, установленных под углом друг к другу достаточно близко к пользователю (surround-конфигурация). В типичной ситуации сцена отрисовывается в одной проекции, что приводит к геометрическим искажениям и неверной отрисовке геометрии. Правильным путем является три разных проекции для каждого из мониторов, в соответствии с углом, под которым они расположены.

При помощи видеокарты на чипе с архитектурой Pascal это можно сделать за один проход геометрии, указав три разные проекции, каждая для своего монитора. И пользователь, таким образом, сможет менять угол, под которым расположены мониторы друг к другу не только физически, но и виртуально - поворачивая проекции для боковых мониторов, чтобы получить корректную перспективу в 3D-сцене при заметно более широком угле обзора (FOV). Правда, тут есть ограничение - для такой поддержки приложение должно уметь отрисовывать сцену с широким FOV и использовать специальные вызовы SMP API для его установки. То есть, в каждой игре так не сделаешь, нужна специальная поддержка.

В любом случае, времена одной проекции на единственный плоский монитор прошли, теперь много многомониторных конфигураций и изогнутых дисплеев, на которых также можно применять эту технологию. Не говоря уже о системах виртуальной реальности, которые используют специальные линзы между экранами и глазами пользователя, что требует новых техник проецирования 3D-изображения в 2D-картинку. Многие из таких технологий и техник еще в начале разработки, главное, что старые GPU не могут эффективно использовать более чем одну плоскую проекцию. Они требуют при этом несколько проходов рендеринга, многократную обработку одной и той же геометрии и т. д.

В чипах архитектуры Maxwell была ограниченная поддержка Multi-Resolution, помогающая увеличить эффективность, но SMP в Pascal может намного больше. Maxwell мог поворачивать проекцию на 90 градусов для кубических карт (cube mapping) или разных разрешений для проекции, но это было полезно лишь в ограниченном круге приложений, вроде VXGI.

Из других возможностей применения SMP отметим отрисовку с разным разрешением и однопроходный стереорендеринг. К примеру, отрисовка с разным разрешением (Multi-Res Shading) может использоваться в играх для оптимизации производительности. При ее применении, используется более высокое разрешение в центре кадра, а на периферии оно снижается для получения более высокой скорости рендеринга.

Однопроходный стереорендеринг используется в VR, он уже добавлен в пакет VRWorks и использует возможность мультипроецирования для снижения объема геометрической работы, требующегося при VR-рендеринге. В случае использования этой возможности, графический процессор GeForce GTX 1080 обрабатывает геометрию сцены лишь один раз, генерируя сразу две проекции для каждого глаза, что вдвое снижает геометрическую нагрузку на GPU, а также снижает потери от работы драйвера и ОС.

Еще более продвинутым методом повышения эффективности VR-рендеринга является Lens Matched Shading, когда при помощи нескольких проекций имитируются геометрические искажения, требуемые при VR-рендеринге. Этот метод использует мультипроецирование для рендеринга 3D-сцены на поверхность, которая приближенно похожа на скорректированную линзой при отрисовке для вывода на VR-шлем, что позволяет не отрисовывать много лишних пикселей на периферии, которые будут отброшены. Проще всего понять суть метода по иллюстрации - перед каждым глазом используется по четыре слегка развернутых проекции (на Pascal можно использовать и по 16 проекций на каждый глаз - для более точной имитации изогнутой линзы) вместо одной:

Такой подход способен прилично экономить в производительности. Так, типичное изображение для Oculus Rift на каждый глаз составляет 1,1 мегапиксель. Но из-за разницы в проекциях, чтобы его отрендерить, используется исходное изображение в 2,1 мегапикселя - на 86% больше необходимого! Применение мультипроецирования, внедренного в архитектуру Pascal, позволяет снизить разрешение отрисовываемого изображения до 1,4 мегапикселей, получив полуторакратную экономию в скорости пиксельной обработки, а также экономит пропускную способность памяти.

А вместе с двукратной экономией по скорости обработки геометрии из-за однопроходного стереорендеринга, графический процессор видеокарты GeForce GTX 1080 способен обеспечить значительное увеличение производительности VR-рендеринга, весьма требовательного и к скорости обработки геометрии, и тем более - к пиксельной обработке.

Улучшения в блоках вывода и обработки видеоданных

Помимо производительности и новой функциональности, связанной с 3D-рендерингом, необходимо поддерживать на хорошем уровне и возможности вывода изображения, а также декодирования и кодирования видеоданных. И первый графический процессор архитектуры Pascal не разочаровал - он поддерживает все современные стандарты в этом смысле, включая аппаратное декодирование формата HEVC, необходимое для просмотра 4K-видеороликов на ПК. Также будущие обладатели видеокарт GeForce GTX 1080 смогут скоро насладиться проигрыванием потокового 4K-видео с Netflix и других провайдеров на своих системах.

С точки зрения вывода изображения на дисплеи, GeForce GTX 1080 имеет поддержку HDMI 2.0b с HDCP 2.2, а также DisplayPort. Пока что сертифицирована версия DP 1.2, но GPU является готовым к сертификации для более новых версий стандарта: DP 1.3 Ready и DP 1.4 Ready. Последнее позволяет выводить изображение на 4K-экраны при частоте обновления 120 Гц, а на 5K- и 8K-дисплеи - при 60 Гц при использовании пары кабелей DisplayPort 1.3. Если для GTX 980 максимальное поддерживаемое разрешение было 5120×3200 при 60 Гц, то для новой модели GTX 1080 оно выросло до 7680×4320 при тех же 60 Гц. Референсная GeForce GTX 1080 имеет три выхода DisplayPort, один HDMI 2.0b и один цифровой Dual-Link DVI.

Новая модель видеокарты Nvidia получила и улучшенный блок декодирования и кодирования видеоданных. Так, чип GP104 соответствует высоким стандартам PlayReady 3.0 (SL3000) для воспроизведения потокового видео, позволяющим быть уверенным в том, что проигрывание высококачественного контента от известных поставщиков, вроде Netflix, будет максимально качественным и энергоэффективным. Подробности о поддержке различных форматов видео при кодировании и декодировании приведены в таблице, новинка явно отличается от предыдущих решений в лучшую сторону:

Но еще более интересной новинкой можно назвать поддержку так называемых дисплеев повышенного динамического диапазона (High Dynamic Range - HDR), которые вот-вот должны получить широкое распространение на рынке. Телевизоры продаются уже в 2016 году (и всего за год планируется продать четыре миллиона HDR-телевизоров), а мониторы - в следующем. HDR - это самый большой прорыв в дисплейных технологиях за долгие годы, этот формат обеспечивает вдвое больше цветовых оттенков (75% видимого спектра, в отличие от 33% для RGB), более яркие дисплеи (1000 нит) с большей контрастностью (10000:1) и насыщенными цветами.

Появление возможности воспроизведения контента с большей разницей в яркости и более богатыми и насыщенными цветами приблизит изображение на экране к реальности, черный цвет станет глубже, яркий же свет будет слепить, как в настоящем мире. Соответственно, пользователи увидят больше деталей в ярких и темных участках изображений, по сравнению со стандартными мониторами и телевизорами.

Для поддержки HDR-дисплеев, GeForce GTX 1080 имеет все необходимое - возможность вывода 12-битного цвета, поддержку стандартов BT.2020 и SMPTE 2084, а также вывод изображения в соответствии со стандартом HDMI 2.0b 10/12-бит для HDR в 4K-разрешении, что было и у Maxwell. В дополнение к этому, в Pascal появилась поддержка декодирования HEVC-формата в 4K-разрешении при 60 Гц и 10- или 12-битном цвете, который используется для HDR-видео, а также кодирование этого же формата с такими же параметрами, но только в 10-бит для записи HDR-видео или потоковой передачи. Также новинка готова к стандартизации DisplayPort 1.4 для передачи HDR-данных по этому разъему.

К слову, кодирование HDR-видео может понадобиться в будущем для того, чтобы передавать такие данные с домашнего ПК на игровую консоль SHIELD, которая умеет воспроизводить 10-битный HEVC. То есть, пользователь сможет транслировать игру с ПК в HDR-формате. Стоп, а где взять игры с такой поддержкой? Компания Nvidia постоянно работает с игровыми разработчиками для внедрения такой поддержки, передавая им все необходимое (поддержку в драйвере, примеры кода и т. п.) для корректного рендеринга HDR-изображения, совместимого с существующими дисплеями.

На момент выпуска видеокарты, GeForce GTX 1080, поддержкой HDR-вывода обладают такие игры, как Obduction, The Witness, Lawbreakers, Rise of the Tomb Raider, Paragon, The Talos Principle и Shadow Warrior 2. Но уже в ближайшем будущем ожидается пополнение этого списка.

Изменения в многочиповом рендеринге SLI

Произошли и некоторые изменения, связанные с фирменной технологией многочипового рендеринга SLI, хотя этого никто не ожидал. SLI используется энтузиастами ПК-игр для того, чтобы повысить производительность или до экстремальных значений, установив мощнейшие одночиповые видеокарты в тандем, или для того, чтобы получить очень высокую частоту кадров, ограничившись парой решений среднего уровня, которые иногда обходятся дешевле, чем одно топовое (решение спорное, но так делают). При наличии 4K-мониторов у игроков почти не остается иных вариантов, кроме установки пары видеокарт, так как даже топовые модели зачастую не могут обеспечить комфортную игру при максимальных настройках в таких условиях.

Одним из важных компонентов Nvidia SLI являются мостики, соединяющие видеокарты в общую видеоподсистему и служащие для организации цифрового канала по передачи данных между ними. На видеокартах GeForce традиционно устанавливались двойные разъемы SLI, которые служили для соединения между двумя или четырьмя видеокартами в 3-Way и 4-Way SLI конфигурациях. Каждая из видеокарт должна была соединяться с каждой, так как все GPU отправляли отрендеренные ими кадры в главный графический процессор, поэтому и были необходимы по два интерфейса на каждой из плат.

Начиная с модели GeForce GTX 1080, для всех видеокарт Nvidia, основанных на архитектуре Pascal, два интерфейса SLI связаны вместе для увеличения производительности передачи данных между видеокартами, и такой новый двухканальный режим SLI позволяет повысить производительность и комфорт при выводе визуальной информации на дисплеи очень высокого разрешения или многомониторные системы.

Для такого режима понадобились и новые мостики, получившие название SLI HB. Они объединяют пару видеокарт GeForce GTX 1080 сразу по двум каналам SLI, хотя новые видеокарты также совместимы и со старыми мостиками. Для разрешений 1920×1080 и 2560×1440 пикселей при частоте обновления 60 Гц можно использовать стандартные мостики, но в более требовательных режимах (4K, 5K и мультимониторные системы) лучшие результаты по плавности смены кадров обеспечат только новые мостики, хотя и старые будут работать, но несколько хуже.

Также, при использовании мостиков SLI HB, интерфейс передачи данных GeForce GTX 1080 работает на скорости 650 МГц, по сравнению с 400 МГц у обычных мостиков SLI на старых GPU. Причем, для некоторых из жестких старых мостиков также доступна более высокая частота передачи данных с видеочипами архитектуры Pascal. С ростом скорости передачи данных между GPU по удвоенному интерфейсу SLI с повышенной частотой работы, обеспечивается и более плавный вывод кадров на экран, по сравнению с предыдущими решениями:

Нужно также отметить, что поддержка многочипового рендеринга в DirectX 12 несколько отличается от того, что было привычно ранее. В последней версии графического API, компания Microsoft сделала много изменений, связанных с работой таких видеосистем. Для разработчиков ПО в DX12 доступны два варианта использования нескольких GPU: режимы Multi Display Adapter (MDA) и Linked Display Adapter (LDA).

Причем, режим LDA имеет две формы: Implicit LDA (который Nvidia использует для SLI) и Explicit LDA (когда разработчик игры берет на себя задачи управления многочиповым рендерингом. Режимы MDA и Explicit LDA как раз и были внедрены в DirectX 12 для того, чтобы дать игровым разработчикам больше свободы и возможностей при использовании многочиповых видеосистем. Разница между режимами хорошо видна по следующей таблице:

В режиме LDA, память каждого GPU может быть связана с памятью другого и отображаться в виде большого общего объема, естественно, при всех ограничениях по производительности, когда данные достаются из «чужой» памяти. В режиме MDA, память каждого GPU работает отдельно, и разные GPU не могут получить прямой доступ к данным из памяти другого графического процессора. Режим LDA разработан для многочиповых систем аналогичной производительности, а режим MDA имеет меньше ограничений, и в нем могут совместно работать дискретные и интегрированные GPU или дискретные решения с чипами разных производителей. Но этот режим также требует от разработчиков больше внимания и работы при программировании совместной работы для того, чтобы GPU смогли обмениваться информацией друг с другом.

По умолчанию, SLI-система на основе плат GeForce GTX 1080 поддерживает лишь два GPU, а трех- и четырехчиповые конфигурации официально не рекомендуются к использованию, так как в современных играх становится все более сложно обеспечивать прирост производительности от добавления третьего и четвертого графического процессора. К примеру, многие игры упираются в возможности центрального процессора системы при работе многочиповых видеосистем, также в новых играх все чаще используются темпоральные (временные) техники, использующие данные из предыдущих кадров, в которых эффективная работа сразу нескольких GPU просто невозможна.

Впрочем, работа систем в других (не SLI) многочиповых системах остается возможной, как то режимы MDA или LDA Explicit в DirectX 12 или двухчиповая SLI система с выделенным третьим GPU для физических эффектов PhysX. А как же рекорды в бенчмарках, неужели в Nvidia отказываются от них совсем? Нет, конечно, но так как подобные системы востребованы в мире чуть ли не единицами пользователей, то для таких ультраэнтузиастов придумали специальный ключ Enthusiast Key, который можно скачать на сайте Nvidia и разблокировать эту возможность. Для этого нужно сначала получить уникальный идентификатор GPU, запустив специальное приложение, затем запросить Enthusiast Key на веб-сайте и, скачав его, установить ключ в систему, разблокировав тем самым 3-Way и 4-Way конфигурации SLI.

Технология синхронизации Fast Sync

Некоторые изменения произошли в технологиях синхронизации при выводе информации на дисплей. Забегая вперед, в G-Sync не появилось ничего нового, как не поддерживается и технология адаптивной синхронизации Adaptive Sync. Зато в Nvidia решили улучшить плавность вывода и синхронизацию для игр, которые показывают очень высокую производительность, когда частота кадров заметно превышает частоту обновления монитора. Это особенно важно для игр, требующих минимальных задержек и быстрого отклика и по которым проходят мультиплеерные сражения и соревнования.

Fast Sync - это новая альтернатива вертикальной синхронизации, которая не имеет визуальных артефактов в виде разрывов картинки на изображении и не привязана к фиксированной частоте обновления, что повышает задержки. В чем проблема вертикальной синхронизации в таких играх, как Counter-Strike: Global Offensive? Эта игра на мощных современных GPU работает с несколькими сотнями кадров в секунду, и у игрока есть выбор: включать вертикальную синхронизацию или нет.

В многопользовательских играх пользователи чаще всего гонятся за минимальными задержками и VSync отключают, получая хорошо видимые разрывы на изображении, крайне неприятные и при высокой частоте кадров. Если же включить вертикальную синхронизацию, то игрок получит значительный рост задержек между его действиями и изображением на экране, когда графический конвейер замедляется до частоты обновления монитора.

Так работает традиционный конвейер. Но в Nvidia решили разделить процесс рендеринга и вывода изображения на экран при помощи технологии Fast Sync. Это позволяет продолжать максимально эффективную работу для той части GPU, которая занимается рендерингом кадров на полной скорости, сохраняя эти кадры в специальном временном буфере Last Rendered Buffer.

Такой метод позволяет изменять способ вывода на экран и брать лучшее от режимов VSync On и VSync Off, получив низкие задержки, но без артефактов изображения. С Fast Sync нет управления потоком кадров, игровой движок работает в режиме отключенной синхронизации и ему не говорят подождать с отрисовкой очередного, поэтому и задержки почти такие же низкие, как у режима VSync Off. Но так как Fast Sync самостоятельно выбирает буфер для вывода на экран и выводит кадр целиком, то нет и разрывов картинки.

При работе Fast Sync используется три разных буфера, первые два из которых работают аналогично двойной буферизации в классическом конвейере. Первичный буфер (Front Buffer - FB) - это буфер, информация из которого выводится на дисплей, полностью отрисованный кадр. Вторичный буфер (Back Buffer - BB) - это буфер, в который поступает информация при рендеринге.

При использовании вертикальной синхронизации в условиях высокой частоты кадров игра ждет достижения момента обновления информации на дисплее (refresh interval), чтобы поменять местами первичный буфер с вторичным для вывода изображения цельного кадра на экран. Это замедляет процесс, а добавление дополнительных буферов как при традиционной тройной буферизации лишь добавит задержку.

С применением Fast Sync добавляется третий буфер Last Rendered Buffer (LRB), который используется для хранения всех кадров, только что отрендеренных во вторичном буфере. Название буфера говорит само за себя, в нем содержится копия последнего полностью отрисованного кадра. И когда настанет момент обновления первичного буфера, этот LRB буфер копируется в первичный целиком, а не по частям, как из вторичного при отключенной вертикальной синхронизации. Так как копирование информации из буферов неэффективно, то они просто меняются местами (или переименовываются, как будет удобнее понять), а новая логика смены буферов местами, появившаяся в GP104, управляет этим процессом.

На практике включение нового метода синхронизации Fast Sync обеспечивает все же чуть большую задержку, по сравнению с вовсе отключенной вертикальной синхронизацией - в среднем на 8 мс больше, зато выводит кадры на монитор целиком, без неприятных артефактов на экране, разрывающих изображение. Новый метод можно включить из графических настроек панели управления Nvidia в секции управления вертикальной синхронизацией. Впрочем, значением по умолчанию остается управление приложением, да и включать Fast Sync во всех 3D-приложениях просто не требуется, лучше выбрать этот метод конкретно для игр с высоким FPS.

Технологии виртуальной реальности Nvidia VRWorks

Мы уже не раз затрагивали горячую тему виртуальной реальности в статье, но речь в основном шла о повышении частоты кадров и обеспечении низких задержек, очень важных для VR. Все это очень важно и прогресс действительно есть, но пока что VR-игры выглядят далеко не столь впечатляюще, как лучшие из «обычных» современных 3D-игр. Так получается не только потому, что VR-приложениями ведущие игровые разработчики пока что не особо занимаются, но и из-за большей требовательности VR к частоте кадров, что не дает использовать многие из привычных техник в таких играх по причине высокой требовательности.

Для того, чтобы уменьшить разницу в качестве между VR-играми и обычными, в Nvidia решили выпустить целый пакет соответствующих технологий VRWorks, в который вошло большое количество API, библиотек, движков и технологий, которые позволяют значительно улучшить как качество, так и производительность VR-приложений. Как это относится к анонсу первого игрового решения на Pascal? Очень просто - в него внедрили некоторые технологии, помогающие увеличить производительность и улучшить качество, и мы о них уже писали.

И хотя дело касается далеко не только графики, сначала немного расскажем именно о ней. В набор технологий VRWorks Graphics входят уже упомянутые ранее технологии, вроде Lens Matched Shading, использующие возможность мультипроецирования, появившуюся именно в GeForce GTX 1080. Новинка позволяет получить прирост производительности в 1,5-2 раза по отношению к решениями, не имеющим такой поддержки. Также мы упоминали и другие технологии, вроде MultiRes Shading, предназначенного для рендеринга с разным разрешением в центре кадра и на его периферии.

Но куда неожиданнее был анонс технологии VRWorks Audio, предназначенной для качественного обсчета звуковых данных в 3D-сценах, особенно важного в системах виртуальной реальности. В обычных движках позиционирование источников звука в виртуальной среде рассчитывается довольно корректно, если враг стреляет справа, то и звук громче раздается с этой стороны аудиосистемы, и такой расчет не слишком требователен к вычислительной мощности.

Но в реальности звуки идут не только к игроку, но во всех направлениях и отражаются от различных материалов, аналогично тому, как отражаются лучи света. И в реальности мы слышим эти отражения, хоть и не так отчетливо, как прямые звуковые волны. Эти непрямые отражения звука обычно имитируются специальными эффектами реверберации, но это - весьма примитивный подход к задаче.

В пакете VRWorks Audio используется просчет звуковых волн аналогично трассировке лучей при рендеринге, когда путь лучей света отслеживается до нескольких отражений от объектов в виртуальной сцене. VRWorks Audio также имитирует распространение звуковых волн в окружающей среде, когда отслеживаются прямые и отраженные волны, в зависимости от угла их падения и свойств отражающих материалов. В своей работе VRWorks Audio использует известный по графическим задачам высокопроизводительный движок Nvidia OptiX, предназначенный для трассировки лучей. OptiX может использоваться для разнообразных задач, таких как расчет непрямого освещения и подготовка карт освещения, а теперь и для трассировки звуковых волн в VRWorks Audio.

Nvidia встроила точный расчет звуковых волн в свою демонстрационную программу VR Funhouse, в ней используется несколько тысяч лучей и просчитывается до 12 отражений от объектов. А для того, чтобы на понятном примере усвоить преимущества технологии, предлагаем вам посмотреть видеоролик о работе технологии на русском языке:

Важно, что подход Nvidia отличается от традиционных звуковых движков, в том числе и аппаратно ускоренного при помощи специального блока в GPU метода от главного конкурента. Все эти методы обеспечивают лишь точное позиционирование источников звука, но не рассчитывают отражения звуковых волн от объектов в 3D-сцене, хотя и могут имитировать это при помощи эффекта реверберации. И все же использование технологии трассировки лучей может быть куда реалистичнее, так как только такой подход обеспечит точную имитацию различных звуков, с учетом размеров, формы и материалов объектов в сцене. Сложно сказать, требуется ли такая точность вычислений для типичного игрока, но можно сказать точно: в VR она может добавить пользователям той самой реалистичности, которой пока что не хватает в обычных играх.

Ну а нам осталось рассказать лишь о технологии VR SLI, работающей и в OpenGL и в DirectX. Ее принцип предельно прост: двухпроцессорная видеосистема в VR-приложении будет работать так, что каждому глазу выделяется отдельный GPU, в отличие от AFR-рендеринга, привычного для SLI-конфигураций. Это значительно повышает общую производительность, столь важную для систем виртуальной реальности. Теоретически можно использовать и большее количество GPU, но их количество должно быть четным.

Такой подход потребовался потому, что AFR плохо подходит для VR, так как с его помощью первый GPU будет отрисовывать четный кадр для обоих глаз, а второй - нечетный, что ничуть не снижает задержки, критически важные для систем виртуальной реальности. Хотя частота кадров при этом будет достаточно высокой. Так что при помощи VR SLI работа над каждым кадром разделяется на два GPU - один работает над частью кадра для левого глаза, второй - для правого, а затем эти половинки кадра объединяются в целый.

Подобное разделение работы между парой графических процессоров приносит почти двукратный рост производительности, позволяющий поднять частоту кадров и снизить задержки по сравнению с системами на основе одной видеокарты. Правда, использование VR SLI требует специальной поддержки со стороны приложения, чтобы использовать этот метод масштабирования. Но технология VR SLI уже встроена в такие демонстрационные VR-приложения как The Lab от Valve и Trials on Tatooine от ILMxLAB, и это только начало - в Nvidia обещают скорое появление других приложений, а также внедрения технологии в игровые движки Unreal Engine 4, Unity и MaxPlay.

Платформа создания игровых скриншотов Ansel

Одним из самых интересных анонсов, связанных с программным обеспечением, стал выпуск технологии захвата качественных скриншотов в игровых приложениях, названной по имени одного известного фотографа - Ansel. Игры уже давно стали не просто играми, но и местом применения шаловливых рук для различных творческих личностей. Кто-то меняет скрипты к играм, кто-то выпускает качественные наборы текстур к играм, а кто-то - делает красивые скриншоты.

Компания Nvidia решила помочь последним, представив новую платформу для создания (именно создания, потому что это не такой уж простой процесс) качественных снимков из игр. Они считают, что Ansel может помочь создать новый вид современного искусства. Ведь уже есть достаточно много художников, которые проводят большую часть жизни за ПК, создавая красивые скриншоты из игр, и у них до сих пор не было удобного инструмента для этого.

Ansel позволяет не просто захватывать изображение в игре, а менять его так, как нужно создателю. При помощи этой технологии можно двигать камеру по сцене, поворачивать и наклонять ее в любом направлении для того, чтобы получить требуемую композицию кадра. К примеру, в таких играх, как шутеры от первого лица, можно только двигать игрока, больше ничего менять особо не получится, поэтому все скриншоты получаются довольно однообразными. Со свободной же камерой в Ansel можно выйти далеко за пределы игровой камеры, выбрав такой ракурс, который нужен для удачной картинки, или вовсе захватить полноценную 360-градусную стереокартину из требуемой точки, да в высоком разрешении для последующего просмотра в VR-шлеме.

Ansel работает довольно просто - при помощи специальной библиотеки от Nvidia эта платформа внедряется в код игры. Для этого ее разработчику требуется всего лишь добавить небольшой кусок кода в свой проект, чтобы позволить видеодрайверу Nvidia перехватывать данные буферов и шейдеров. Работы там совсем немного, внедрение Ansel в игру требует меньше чем одного дня для внедрения. Так, включение этой возможности в игру The Witness заняло около 40 строк кода, а в The Witcher 3 - порядка 150 строк кода.

Ansel появится с открытым пакетом для разработки - SDK. Главное, что пользователь получает вместе с ним стандартный набор настроек, позволяющих ему менять положение и угол камеры, добавлять эффекты и т. п. Платформа Ansel работает так: она ставит игру на паузу, включает свободную камеру и позволяет изменять кадр до требуемого вида, записывая результат в виде обычного скриншота, 360-градусного снимка, стереопары или просто панорамы огромного разрешения.

Единственное замечание: не все игры получат поддержку всех возможностей платформы создания игровых скриншотов Ansel. Некоторые из игровых разработчиков по тем или иным причинам не желают включать полностью свободную камеру в своих играх - например, из-за возможности использования этой функциональности читерами. Или они хотят ограничить изменение угла обзора по все той же причине - чтобы никто не получил несправедливого преимущества. Ну, или чтобы пользователи не увидели убогие спрайты на заднем плане. Все это - вполне нормальные желания создателей игр.

Одной из интереснейших возможностей Ansel является создание скриншотов просто огромного разрешения. Неважно, что игра поддерживает разрешения до 4K, например, а монитор у пользователя и вовсе Full HD. При помощи платформы снятия скриншотов можно захватить куда более качественное изображение, ограниченное скорее объемом и производительностью накопителя. Платформа с легкостью захватывает скриншоты с разрешением до 4,5 гигапикселей, со сшивкой их из 3600 кусочков!

Понятно, что на таких картинах можно рассмотреть все детали, вплоть до текста на валяющихся вдалеке газетах, если такой уровень детализации в принципе предусмотрен в игре - Ansel умеет управлять и уровнем детализации, выставляя максимальный уровень, чтобы получить лучшее качество картинки. А ведь еще можно включить суперсэмплинг. Все это позволяет создавать изображения из игр, которые можно смело печатать на больших баннерах и быть спокойным за их качество.

Интересно, что для сшивки больших изображений используется специальный аппаратно ускоренный код на основе CUDA. Ведь никакая видеокарта не сможет отрендерить многогигапиксельное изображение целиком, но она может сделать это по кусочкам, которые нужно просто объединить впоследствии, учитывая возможную разницу в освещении, цвете и прочем.

После сшивки таких панорам для всего кадра используется специальная постобработка, также ускоренная на GPU. А для захвата изображений в повышенном динамическом диапазоне можно использовать специальный формат изображений - EXR, открытый стандарт от Industrial Light and Magic, значения цветности в каждом канале которого записываются в 16-битном формате с плавающей запятой (FP16).

Этот формат позволяет менять яркость и динамический диапазон изображения постобработкой, приводя его к нужному для каждого конкретного дисплея аналогично тому, как это делается с RAW-форматами с фотокамер. Да и для последующего применения фильтров постобработки в программах обработки изображений этот формат весьма полезен, так как содержит куда больше данных, чем привычные форматы для изображений.

Но платформа Ansel и сама содержит множество фильтров для постобработки, что особенно важно потому, что она имеет доступ не только к итоговой картинке, но и ко всем буферам, использующимся игрой при рендеринге, что можно использовать для очень интересных эффектов, вроде глубины резкости. Для этого в Ansel есть специальный API для постобработки, и любой из эффектов можно включить в игру с поддержкой этой платформы.

В число постфильтров Ansel входят такие фильтры как: color curves, color space, transformation, desaturation, brightness/contrast, film grain, bloom, lens flare, anamorphic glare, distortion, heathaze, fisheye, color aberration, tone mapping, lens dirt, lightshafts, vignette, gamma correction, convolution, sharpening, edge detection, blur, sepia, denoise, FXAA и другие.

Что касается появления поддержки Ansel в играх, то тут придется немного подождать, пока разработчики ее внедрят и протестируют. Но Nvidia обещает скорое появление такой поддержки в таких известных играх, как The Division, The Witness, Lawbreakers, The Witcher 3, Paragon, Fortnite, Obduction, No Man"s Sky, Unreal Tournament и других.

Новый технологический процесс 16 нм FinFET и оптимизации архитектуры позволили видеокарте GeForce GTX 1080, основанной на графическом процессоре GP104, достичь высокой тактовой частоты в 1,6-1,7 ГГц даже в референсном виде, а работу на максимально возможных частотах в играх гарантирует новое поколение технологии GPU Boost. Вместе с увеличенным количеством исполнительных блоков, эти улучшения сделали новинку не просто самой высокопроизводительной одночиповой видеокартой за все время, но и наиболее энергоэффективным решением на рынке.

Модель GeForce GTX 1080 стала первой видеокартой, несущей на себе новый тип графической памяти GDDR5X - нового поколения высокоскоростных чипов, которое позволило достичь очень высокой частоты передачи данных. В случае модификации GeForce GTX 1080, этот тип памяти работает на эффективной частоте в 10 ГГц. В сочетании с улучшенными алгоритмами сжатия информации во фреймбуфере, это привело к росту эффективной пропускной способности памяти для этого графического процессора в 1,7 раза, по сравнению с прямым предшественником в лице GeForce GTX 980.

Компания Nvidia благоразумно решила не выпускать радикально новую архитектуру на абсолютно новом для себя техпроцессе, чтобы не столкнуться с лишними проблемами при разработке и производстве. Вместо этого они серьезно улучшили и так неплохую и весьма эффективную архитектуру Maxwell, добавив некоторые возможности. В итоге, с производством новых GPU все хорошо, и в случае модели GeForce GTX 1080 инженеры добились очень высокого частотного потенциала - в разогнанных вариантах от партнеров частота GPU ожидается вплоть до 2 ГГц! Столь впечатляющая частота стала реальна благодаря совершенному техпроцессу и кропотливой работе инженеров Nvidia при разработке графического процессора Pascal.

И хотя Pascal стал прямым последователем дела Maxwell, и эти графические архитектуры в основе своей не слишком сильно отличаются друг от друга, компания Nvidia внедрила множество изменений и улучшений, в том числе в возможности вывода изображения на дисплеи, движок кодирования и декодирования видеоданных, улучшили асинхронное исполнение различных типов вычислений на GPU, внесли изменения в многочиповый рендеринг и внедрили новый метод синхронизации Fast Sync.

Нельзя не выделить технологию мультипроецирования Simultaneous Multi-Projection, которая помогает повысить производительность в системах виртуальной реальности, получить более корректное отображение сцен на многомониторных системах, и внедрить новые техники оптимизации производительности. Но наибольший прирост в скорости получат VR-приложения, когда ими будет поддерживаться технология мультипроецирования, помогающая вдвое сэкономить ресурсы GPU при обработке геометрических данных и в полтора раза - при попиксельных вычислениях.

Среди чисто программных изменений особенно выделяется платформа для создания скриншотов в играх под названием Ansel - попробовать ее в деле будет интересно не только много играющим, но и просто интересующимся качественной 3D-графикой. Новинка позволяет продвинуть искусство создания и ретуши скриншотов на новый уровень. Ну а такие свои пакеты для разработчиков игр, как GameWorks и VRWorks, Nvidia просто продолжает улучшать шаг за шагом - так, в последнем появилась интересная возможность качественного обсчета звука, учитывающая многочисленные отражения звуковых волн с использованием аппаратной трассировки лучей.

В общем, в виде видеокарты Nvidia GeForce GTX 1080 на рынок вышел настоящий лидер, имеющий для этого все необходимые качества: высокую производительность и широкую функциональность, а также поддержку новых возможностей и алгоритмов. Первые покупатели этой видеокарты смогут оценить многие из упомянутых преимуществ сразу, а другие возможности решения раскроются чуть позже, когда появится широкая поддержка со стороны программного обеспечения. Главное, что GeForce GTX 1080 получилась весьма быстрой и эффективной, а часть проблемных мест (те же асинхронные вычисления), как мы очень надеемся, инженерам Nvidia удалось исправить.

Графический ускоритель GeForce GTX 1070

Параметр Значение
Кодовое имя чипа GP104
Технология производства 16 нм FinFET
Количество транзисторов 7,2 млрд.
Площадь ядра 314 мм²
Архитектура Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX DirectX 12, с поддержкой уровня возможностей Feature Level 12_1
Шина памяти 256-битная: восемь независимых 32-битных контроллеров памяти с поддержкой GDDR5 и GDDR5X памяти
Частота графического процессора 1506 (1683) МГц
Вычислительные блоки 15 активных (из 20 в чипе) потоковых мультипроцессоров, включающих 1920 (из 2560) скалярных ALU для расчетов с плавающей запятой в рамках стандарта IEEE 754-2008;
Блоки текстурирования 120 активных (из 160 в чипе) блоков текстурной адресации и фильтрации с поддержкой FP16- и FP32-компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растровых операций (ROP) 8 широких блоков ROP (64 пикселя) с поддержкой различных режимов сглаживания, в том числе программируемых и при FP16- или FP32-формате буфера кадра. Блоки состоят из массива конфигурируемых ALU и отвечают за генерацию и сравнение глубины, мультисэмплинг и блендинг
Поддержка мониторов Интегрированная поддержка до четырех мониторов, подключенных по интерфейсам Dual Link DVI, HDMI 2.0b и DisplayPort 1.2 (1.3/1.4 Ready)

Спецификации референсной видеокарты GeForce GTX 1070
Параметр Значение
Частота ядра 1506 (1683) МГц
Количество универсальных процессоров 1920
Количество текстурных блоков 120
Количество блоков блендинга 64
Эффективная частота памяти 8000 (4×2000) МГц
Тип памяти GDDR5
Шина памяти 256-бит
Объем памяти 8 ГБ
Пропускная способность памяти 256 ГБ/с
Вычислительная производительность (FP32) около 6,5 терафлопс
Теоретическая максимальная скорость закраски 96 гигапикселей/с
Теоретическая скорость выборки текстур 181 гигатекселей/с
Шина PCI Express 3.0
Разъемы Один разъем Dual Link DVI, один HDMI и три DisplayPort
Энергопотребление до 150 Вт
Дополнительное питание Один 8-контактный разъем
Число слотов, занимаемых в системном корпусе 2
Рекомендуемая цена $379-449 (США), 34 990 (Россия)

Видеокарта GeForce GTX 1070 также получила логичное наименование, аналогичное такому же решению из предыдущей серий GeForce. Оно отличается от своего прямого предшественника GeForce GTX 970 только измененной цифрой поколения. Новинка становится в текущей линейке компании на шаг ниже нынешнего топового решения GeForce GTX 1080, ставшего временным флагманом новой серии до выпуска решений на GPU еще большей мощности.

Рекомендованные цены на новую топовую видеоплату Nvidia составляют $379 и $449 для обычных версий партнеров Nvidia и специального издания Founders Edition, соответственно. По сравнению с топовой моделью, это очень хорошая цена с учетом того, что GTX 1070 уступает ей около 25% в худшем случае. И на момент анонса и выхода GTX 1070 становится лучшим по производительности решением в своем классе. Как и GeForce GTX 1080, модель GTX 1070 не имеет прямых конкурентов от AMD, и сравнивать ее можно разве что с Radeon R9 390X и Fury.

У графического процессора GP104 в модификации GeForce GTX 1070 решили оставить полную 256-битную шину памяти, хотя применили не новый тип памяти GDDR5X, а очень быструю GDDR5, которая работает на высокой эффективной частоте в 8 ГГц. Объем установленной на видеокарту памяти с такой шиной может быть равен 4 или 8 ГБ, и, чтобы обеспечить максимальную производительность нового решения в условиях высоких настроек и разрешениях рендеринга, модель видеокарты GeForce GTX 1070 была также оснащена 8 ГБ видеопамяти, как и ее старшая сестра. Этого объема хватит для запуска любых 3D-приложений с максимальными настройками качества на несколько лет.

Специальное издание GeForce GTX 1070 Founders Edition

При анонсе GeForce GTX 1080 в начале мая было объявлено специальное издание видеокарты под названием Founders Edition, имеющее более высокую цену, по сравнению с обычными видеокартами партнеров компании. То же самое относится и к новинке. В этом материале мы снова расскажем о специальном издании видеокарты GeForce GTX 1070 под названием Founders Edition. Как и в случае старшей модели, Nvidia решила выпустить такой вариант референсной видеокарты производителя по более высокой цене. Они утверждают, что многие игроки и энтузиасты, покупающие дорогие видеокарты топового уровня, хотят продукт с соответствующим «премиальным» видом и ощущением от него.

Соответственно, именно для таких пользователей на рынок будет выпущена видеокарта GeForce GTX 1070 Founders Edition, которая спроектирована и выполнена инженерами Nvidia из премиальных материалов и компонентов, вроде алюминиевой крышки GeForce GTX 1070 Founders Edition, а также низкопрофильной задней пластины, прикрывающей оборотную сторону печатной платы и достаточно популярной среди энтузиастов.

Как вы можете видеть по фотографиям платы, GeForce GTX 1070 Founders Edition унаследовала ровно тот же индустриальный дизайн, присущий референсному варианту GeForce GTX 1080 Founders Edition. В обеих моделях применяется радиальный вентилятор, выбрасывающий нагретый воздух наружу, что очень полезно как в маленьких корпусах, так и многочиповых SLI-конфигурациях с ограниченным физически пространством. Выдув нагретого воздуха наружу вместо его циркуляции внутри корпуса позволяет снизить температурную нагрузку, повысить результаты разгона и продлить время жизни компонентам системы.

Под крышкой референсной системы охлаждения GeForce GTX 1070 скрывается алюминиевый радиатор специальной формы с тремя встроенными тепловыми трубками из меди, отводящими тепло от самого графического процессора. Тепло, отведенное тепловыми трубками, затем рассеивается при помощи алюминиевого радиатора. Ну и низкопрофильная металлическая пластина на оборотной стороне платы также предназначена для обеспечения лучших температурных характеристик. Она также имеет убираемую секцию для лучшего движения воздуха между несколькими видеокартами в SLI-конфигурациях.

Что касается системы питания платы, то GeForce GTX 1070 Founders Edition имеет четырехфазную систему питания, оптимизированную для стабильного снабжения энергией. Компания Nvidia уверяет, что использование специальных компонентов в GTX 1070 Founders Edition позволило повысить эффективность электроснабжения, стабильность и надежность по сравнению с GeForce GTX 970, обеспечив лучшие показатели при разгоне. В собственных тестах компании графические процессоры плат GeForce GTX 1070 легко превосходили значение в 1,9 ГГц, что близко к результатам старшей модели GTX 1080.

Видеокарта Nvidia GeForce GTX 1070 будет доступна в розничных магазинах начиная с 10 июня. Рекомендуемые цены на GeForce GTX 1070 Founders Edition и решения партнеров отличаются, и в этом заключается самый главный вопрос к этому специальному изданию. Если партнеры Nvidia будут продавать свои видеокарты GeForce GTX 1070 по цене, начиная от $379 (на рынке США), то Founders Edition референсного дизайна Nvidia будет стоить уже $449. Много ли найдется энтузиастов, готовых переплачивать за, скажем прямо, сомнительные преимущества референсного варианта? Время покажет, но мы считаем, что референсная плата интересна скорее как вариант, доступный к покупке в самом начале продаж, а позднее смысл его приобретения (да еще за большую цену!) уже сводится к нулю.

Остается добавить, что печатная плата референсной GeForce GTX 1070 схожа с таковой у старшей видеокарты и обе они отличаются от устройства предыдущих плат компании. Значение типичного энергопотребления для новинки составляет 150 Вт, что меньше значения для GTX 1080 почти на 20% и близко к потреблению энергии видеокартой предыдущего поколения GeForce GTX 970. Референсная плата Nvidia имеет уже привычный набор разъемов для присоединения устройств вывода изображения: один Dual-Link DVI, один HDMI и три DisplayPort. Причем, появилась поддержка новых версий HDMI и DisplayPort, о которой мы написали выше в обзоре модели GTX 1080.

Архитектурные изменения

Видеокарта модели GeForce GTX 1070 основана на чипе GP104, первенце нового поколения графической архитектуры Nvidia - Pascal. Эта архитектура взяла в основу решения, отработанные еще в Maxwell, но в ней есть и некоторые функциональные отличия, о которых мы подробно писали выше - в части, посвященной топовой видеокарте GeForce GTX 1080.

Главным изменением новой архитектуры стал технологический процесс, по которому будут выполнены все новые графические процессоры. Применение техпроцесса 16 нм FinFET при производстве GP104 позволило значительно повысить сложность чипа при сохранении сравнительно невысокой площади и себестоимости, и первый же чип архитектуры Pascal имеет заметно большее количество исполнительных блоков, в том числе обеспечивающих новую функциональность, по сравнению с чипами Maxwell похожего позиционирования.

Видеочип GP104 по своему устройству схож с аналогичными решениями архитектуры Maxwell, и подробные данные об устройстве современных GPU вы можете найти в наших обзорах предыдущих решений компании Nvidia. Как и предыдущие графические процессоры, чипы новой архитектуры будут иметь разную конфигурацию вычислительных кластеров Graphics Processing Cluster (GPC), потоковых мультипроцессоров Streaming Multiprocessor (SM) и контроллеров памяти, и в GeForce GTX 1070 уже произошли некоторые изменения - часть чипа была заблокирована и неактивна (выделено серым):

Хотя в состав графического процессора GP104 входит четыре кластера GPC и 20 мультипроцессоров SM, в версии для GeForce GTX 1070 он получил урезанную модификацию с аппаратно отключенным одним кластером GPC. Так как каждый кластер GPC имеет выделенный движок растеризации и включает в себя пять мультипроцессоров SM, а каждый мультипроцессор состоит из 128 CUDA-ядер и восьми текстурных блоков TMU, то в этой версии GP104 активны 1920 CUDA-ядер и 120 блоков TMU из 2560 потоковых процессоров и 160 текстурных блоков, имеющихся физически.

Графический процессор, на котором основана видеокарта GeForce GTX 1070, содержит восемь 32-битных контроллеров памяти, дающих итоговую 256-битную шину памяти - ровно как в случае старшей модели GTX 1080. Подсистема памяти не была урезана для того, чтобы обеспечить достаточно высокую пропускную способность памяти с условием применения GDDR5-памяти в GeForce GTX 1070. К каждому из контроллеров памяти привязано по восемь блоков ROP и 256 КБ кэш-памяти второго уровня, поэтому чип GP104 и в этой модификации также содержит 64 блоков ROP и 2048 КБ кэш-памяти второго уровня.

Благодаря архитектурным оптимизациям и новому техпроцессу, графический процессор GP104 стал самым энергоэффективным графическим процессором на данный момент. Инженеры компании Nvidia смогли повысить тактовую частоту больше, чем они рассчитывали при переходе на новый техпроцесс, для чего им пришлось хорошо поработать, тщательно проверив и оптимизировав все узкие места предыдущих решений, не позволяющие им работать на более высокой частоте. Соответственно, GeForce GTX 1070 также работает на очень высокой частоте, более чем на 40% выше референсного значения для GeForce GTX 970.

Так как модель GeForce GTX 1070 является, по своей сути, просто чуть менее производительной GTX 1080 с GDDR5-памятью, то она поддерживает абсолютно все технологии, описанные нами в предыдущем разделе. Чтобы получить больше деталей об архитектуре Pascal, равно как и поддерживаемых ей технологиях, вроде улучшенных блоков вывода и обработки видеоданных, поддержки асинхронных вычислений Async Compute, технологии мультипроецирования Simultaneous Multi-Projection, изменениях в многочиповом рендеринге SLI и новом типе синхронизации Fast Sync, стоит ознакомиться с разделом по GTX 1080.

Высокопроизводительная GDDR5-память и ее эффективное использование

Мы выше писали об изменениях в подсистеме памяти у графического процессора GP104, на котором основаны модели GeForce GTX 1080 и GTX 1070 - контроллеры памяти, имеющиеся в составе этого GPU, поддерживают как новый тип видеопамяти GDDR5X, о котором подробно написано в обзоре GTX 1080, так и старую добрую GDDR5-память, известную нам вот уже несколько лет.

Чтобы не слишком много потерять в пропускной способности памяти в младшей модели GTX 1070 по сравнению со старшей GTX 1080, в ней оставили активными все восемь 32-битных контроллеров памяти, получив полноценный 256-битный общий интерфейс видеопамяти. Кроме этого, видеокарту оснастили самой высокоскоростной GDDR5-памятью, которая только была доступна на рынке - с эффективной частотой работы в 8 ГГц. Все это обеспечило ПСП в 256 ГБ/с, в отличие от 320 ГБ/с у старшего решения - примерно на столько же были урезаны и вычислительные возможности, так что баланс был соблюден.

Не забываем, что хотя пиковая теоретическая пропускная способность важна для производительности графических процессоров, нужно обращать внимание и на эффективность ее использования. В процессе рендеринга, множество разных узких мест может ограничивать общую производительность, не давая использовать всю имеющуюся ПСП. Чтобы минимизировать количество таких узких мест, в графических процессорах применяется специальное сжатие информации без потерь, повышающее эффективность операций чтения и записи данных.

В архитектуре Pascal было внедрено уже четвертое поколение дельта-сжатия информации буферов, позволяющее GPU более эффективно использовать имеющиеся возможности шины видеопамяти. Подсистема памяти в GeForce GTX 1070 и GTX 1080 использует улучшенные старые и несколько новых техник по сжатию данных без потерь, предназначенные для снижения требований к ПСП. Это снижает количество записываемых данных в память, улучшает эффективность использования L2-кэша и уменьшает количество данных, пересылаемых между разными точками GPU, вроде TMU и фреймбуфера.

GPU Boost 3.0 и особенности разгона

Большинство партнеров компании Nvidia уже анонсировали фабрично разогнанные решения на основе GeForce GTX 1080 и GTX 1070. А многие из производителей видеокарт создают и специальные утилиты для разгона, позволяющие использовать новую функциональность технологии GPU Boost 3.0. Одним из примеров таких утилит является EVGA Precision XOC, которая включает автоматический сканер для определения кривой соотношения напряжений и частот - в этом режиме для каждого из значений напряжения при помощи запуска теста стабильности находится стабильная частота, при которой GPU обеспечивает рост производительности. Впрочем, эту кривую можно изменять и вручную.

Технологию GPU Boost мы хорошо знаем по предыдущим видеокартам компании Nvidia. В своих графических процессорах они применяют эту аппаратную особенность, предназначенную для увеличения рабочей тактовой частоты GPU в режимах, когда он еще не достиг пределов по энергопотреблению и тепловыделению. В графических процессорах Pascal этот алгоритм претерпел несколько изменений, основным из которых стала более тонкая установка турбо-частот, в зависимости от напряжения.

Если раньше разница между базовой частотой и турбо-частотой была фиксированной, то в GPU Boost 3.0 появилась возможность установки смещений турбо-частот для каждого напряжения по отдельности. Теперь турбо-частота может устанавливаться для каждого из индивидуальных значений напряжения, что позволяет полностью выжимать все возможности разгона из GPU. Мы подробно писали об этой возможности в обзоре GeForce GTX 1080, и для этого можно использовать утилиты EVGA Precision XOC и MSI Afterburner.

Так как в методике разгона с выходом видеокарт с поддержкой GPU Boost 3.0 изменились некоторые детали, то Nvidia пришлось сделать дополнительные пояснения в инструкции по разгону новинок. Существуют разные методики разгона с различными переменными характеристиками, влияющими на итоговый результат. Для каждой конкретной системы может лучше подойти какой-то определенный метод, но основа всегда примерно одинакова.

Многие из оверклокеров для проверки стабильности системы используют бенчмарк Unigine Heaven 4.0, который отлично загружает графический процессор работой, имеет гибкие настройки и может быть запущен в оконном режиме вместе с окном утилиты для разгона и мониторинга рядом, вроде EVGA Precision или MSI Afterburner. Впрочем, такой проверки достаточно лишь для начальных прикидок, а для крепкого подтверждения стабильности разгона, его необходимо проверить в нескольких игровых приложениях, потому что разные игры предполагают отличающуюся нагрузку на различные функциональные блоки GPU: математические, текстурные, геометрические. Бенчмарк Heaven 4.0 также удобен для задачи разгона потому, что в нем есть закольцованный режим работы, в котором удобно менять настройки разгона и есть бенчмарк для оценки прироста скорости.

Nvidia советует при разгоне новых видеокарт GeForce GTX 1080 и GTX 1070 запускать окна Heaven 4.0 и EVGA Precision XOC совместно. Сначала желательно сразу же повысить скорость вращения вентилятора. И для серьезного разгона можно сразу выставлять значение скорости на 100%, что сделает работу видеокарты очень громкой, но максимально охладит GPU и остальные компоненты видеокарты, снизив температуру на минимально возможный уровень, предотвратив тротлинг (снижение частот из-за роста температуры GPU выше определенного значения).

Далее нужно установить целевое значение питания (Power Target) также на максимум. Эта настройка позволит обеспечить графический процессор максимально возможным количеством энергии, повысив уровень энергопотребления и целевую температуру GPU (GPU Temp Target). В некоторых целях, второе значение можно отделить от изменения Power Target, и тогда эти настройки можно будет настраивать индивидуально - для достижения меньшего нагрева видеочипа, например.

Следующим шагом идет увеличение значения прироста частоты видеочипа (GPU Clock Offset) - оно означает, насколько большей будет турбо-частота при работе. Это значение повышает частоту для всех значений напряжения и приводит к большей производительности. Как обычно, при разгоне нужно проверять стабильность при повышении частоты GPU небольшими шагами - от 10 МГц до 50 МГц на шаг до того, как будет отмечено зависание, ошибка драйвера или приложения или даже визуальные артефакты. При достижении такого лимита следует снизить значение частоты на шаг вниз и еще раз проверить стабильность и производительность при разгоне.

Кроме частоты GPU, можно также увеличить и частоту видеопамяти (Memory Clock Offset), что особенно важно в случае GeForce GTX 1070, оснащенной GDDR5-памятью, которая обычно неплохо разгоняется. Процесс в случае частоты работы памяти в точности повторяет то, что делается при нахождении стабильной частоты GPU, единственная разница в том, что шаги можно делать крупнее - добавлять сразу по 50-100 МГц к базовой частоте.

Кроме описанных выше шагов, можно увеличить и предел напряжения (Overvoltage), ведь более высокая частота графического процессора часто достигается при повышенном напряжении, когда работающие нестабильно части GPU получают дополнительное питание. Правда, потенциальным минусом повышения данного значения является возможность повреждения видеочипа и ускоренного выхода его из строя, поэтому нужно использовать повышение напряжения с особой осторожностью.

Любители разгона используют несколько отличающиеся методики, изменяя параметры в разном порядке. Например, некоторые оверклокеры разделяют опыты по нахождению стабильной частоты GPU и памяти, чтобы они не мешали друг другу, а потом тестируют комбинированный разгон и видеочипа и микросхем памяти, но это уже - несущественные детали индивидуального подхода.

Судя по мнениям в форумах и комментариях к статьям, некоторым пользователям не пришелся по вкусу новый алгоритм работы GPU Boost 3.0, когда частота GPU сначала задирается очень высоко, зачастую выше турбо-частоты, но потом, под воздействием роста температуры GPU или возросшего энергопотребления выше установленного предела, она может опуститься до значительно меньших значений. Это просто специфика работы обновленного алгоритма, нужно привыкнуть к новому поведению динамически изменяемой частоты GPU, но никаких негативных последствий оно не несет.

Видеокарта GeForce GTX 1070 стала второй после GTX 1080 моделью в новой линейке компании Nvidia, основанной на графических процессорах семейства Pascal. Новый технологический процесс 16 нм FinFET и оптимизации архитектуры позволили представленной видеокарте достичь высокой тактовой частоты, в чем ей помогает и новое поколение технологии GPU Boost. Даже несмотря на урезанное количество функциональных блоков в виде потоковых процессоров и текстурных модулей, их количество осталось достаточным для того, чтобы GTX 1070 стала самым выгодным и энергоэффективным решением.

Установка на младшую из пары выпущенных моделей видеокарт Nvidia на чипе GP104 памяти стандарта GDDR5, в отличие от нового типа GDDR5X, которым отличается GTX 1080, не мешает ей достичь высоких показателей производительности. Во-первых, в Nvidia решили не урезать шину памяти модели GeForce GTX 1070, а во-вторых, на нее поставили самую быструю GDDR5-память с эффективной частотой в 8 ГГц, что лишь чуть ниже 10 ГГц у применяемой в старшей модели GDDR5X. Учитывая еще и улучшенные алгоритмы дельта-сжатия, эффективная пропускная способность памяти графического процессора стала выше этого же параметра у аналогичной модели предыдущего поколения GeForce GTX 970.

GeForce GTX 1070 хороша тем, что предлагает очень высокую производительность и поддержку новых возможностей и алгоритмов при значительно меньшей цене, по сравнению со старшей моделью, анонсированной чуть ранее. Если приобретение GTX 1080 за 55 000 себе смогут позволить единицы энтузиастов, то выложить 35 000 за лишь на четверть менее производительное решение ровно с теми же возможностями сможет уже куда больший круг потенциальных покупателей. Именно сочетание сравнительно низкой цены и высокой производительности сделало GeForce GTX 1070, пожалуй, самым выгодным приобретением на момент ее выпуска.

Графический ускоритель GeForce GTX 1060

Параметр Значение
Кодовое имя чипа GP106
Технология производства 16 нм FinFET
Количество транзисторов 4,4 млрд.
Площадь ядра 200 мм²
Архитектура Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX DirectX 12, с поддержкой уровня возможностей Feature Level 12_1
Шина памяти 192-битная: шесть независимых 32-битных контроллеров памяти с поддержкой GDDR5 памяти
Частота графического процессора 1506 (1708) МГц
Вычислительные блоки 10 потоковых мультипроцессоров, включающих 1280 скалярных ALU для расчетов с плавающей запятой в рамках стандарта IEEE 754-2008;
Блоки текстурирования 80 блоков текстурной адресации и фильтрации с поддержкой FP16- и FP32-компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растровых операций (ROP) 6 широких блоков ROP (48 пикселей) с поддержкой различных режимов сглаживания, в том числе программируемых и при FP16- или FP32-формате буфера кадра. Блоки состоят из массива конфигурируемых ALU и отвечают за генерацию и сравнение глубины, мультисэмплинг и блендинг
Поддержка мониторов Интегрированная поддержка до четырех мониторов, подключенных по интерфейсам Dual Link DVI, HDMI 2.0b и DisplayPort 1.2 (1.3/1.4 Ready)

Спецификации референсной видеокарты GeForce GTX 1060
Параметр Значение
Частота ядра 1506 (1708) МГц
Количество универсальных процессоров 1280
Количество текстурных блоков 80
Количество блоков блендинга 48
Эффективная частота памяти 8000 (4×2000) МГц
Тип памяти GDDR5
Шина памяти 192-бит
Объем памяти 6 ГБ
Пропускная способность памяти 192 ГБ/с
Вычислительная производительность (FP32) около 4 терафлопс
Теоретическая максимальная скорость закраски 72 гигапикселя/с
Теоретическая скорость выборки текстур 121 гигатекселей/с
Шина PCI Express 3.0
Разъемы Один разъем Dual Link DVI, один HDMI и три DisplayPort
Типичное энергопотребление 120 Вт
Дополнительное питание Один 6-контактный разъем
Число слотов, занимаемых в системном корпусе 2
Рекомендуемая цена $249 ($299) в США и 18 990 в России

Видеокарта GeForce GTX 1060 также получила наименование, схожее с таким же решением из предыдущей серий GeForce, отличающееся от имени своего прямого предшественника GeForce GTX 960 лишь измененной первой цифрой поколения. Новинка стала в текущей линейке компании на шаг ниже вышедшего ранее решения GeForce GTX 1070, являющегося средним по скорости в новой серии.

Рекомендованные цены на новую видеоплату компании Nvidia составляют $249 и $299 для обычных версий партнеров компании и для специального издания Founder’s Edition соответственно. По сравнению с двумя старшими моделями это очень выгодная цена, так как новая модель GTX 1060 хоть и уступает топовым платам, но далеко не настолько, насколько она их дешевле. На момент анонса новинка совершенно точно стала лучшим по производительности решением в своем классе и одним из наиболее выгодных предложений в этом ценовом диапазоне.

Данная модель видеокарты семейства Pascal компании Nvidia вышла для противодействия свежему решению конкурирующей компании AMD, которая чуть ранее выпустила на рынок Radeon RX 480. Сравнивать новинку Nvidia с этой видеокартой можно, хотя и не совсем напрямую, так как они все же довольно ощутимо отличаются по цене. GeForce GTX 1060 дороже ($249-299 против $199-229), но и явно побыстрее конкурента.

Графический процессор GP106 имеет 192-битную шину памяти, поэтому объем установленной на видеокарту памяти с такой шиной может быть равен 3 или 6 ГБ. Меньшего значения в современных условиях откровенно недостаточно, и многие игровые проекты даже в Full HD-разрешении будут упираться в нехватку видеопамяти, что серьезно скажется на плавности рендеринга. Чтобы обеспечить максимальную производительность нового решения в условиях высоких настроек, модель видеокарты GeForce GTX 1060 была оснащена 6 ГБ видеопамяти, чего вполне хватит для запуска любых 3D-приложений с любыми настройками качества. Более того, на сегодня разницы между 6 и 8 ГБ просто нет, а немного денег такое решение сэкономит.

Значение типичного энергопотребления для новинки составляет 120 Вт, что меньше значения для GTX 1070 на 20% и равно потреблению энергии видеокартой предыдущего поколения GeForce GTX 960, имеющей куда меньшую производительность и возможности. Референсная плата имеет привычный набор разъемов для присоединения устройств вывода изображения: один Dual-Link DVI, один HDMI и три DisplayPort. Причем появилась поддержка новых версий HDMI и DisplayPort, о которой мы писали в обзоре модели GTX 1080.

Длина референсной платы GeForce GTX 1060 равна 9,8 дюйма (25 см), а из отличий от старших вариантов отдельно отметим то, что GeForce GTX 1060 не поддерживает конфигурацию многочипового рендеринга SLI, и не имеет специального разъема для этого. Так как плата потребляет меньше энергии, чем старшие модели, то для дополнительного питания на плату установили один 6-контактный разъем PCI-E внешнего питания.

Видеокарты GeForce GTX 1060 появились на рынке начиная со дня анонса в виде продукции партнеров компании: Asus, EVGA, Gainward, Gigabyte, Innovision 3D, MSI, Palit, Zotac. В ограниченном количестве будет выпущено и специальное издание GeForce GTX 1060 Founder’s Edition, произведенное самой компанией Nvidia, которое будет продаваться по цене $299 исключительно на сайте компании Nvidia и официально в России представлено не будет. Founder’s Edition отличается тем, что она изготовлена из высококачественных материалов и компонентов, включая алюминиевый корпус, и использует эффективную систему охлаждения, а также цепи питания с низким сопротивлением и регуляторами напряжения специального дизайна.

Архитектурные изменения

Видеокарта GeForce GTX 1060 основана на абсолютно новом графическом процессоре модели GP106, который функционально ничем не отличается от первенца архитектуры Pascal в виде чипа GP104, на котором основаны описанные выше модели GeForce GTX 1080 и GTX 1070. Эта архитектура взяла в основу решения, отработанные еще в Maxwell, но в ней есть и некоторые функциональные отличия, о которых мы подробно написали ранее.

Видеочип GP106 по своему устройству схож с топовым чипом Pascal и аналогичными решениями архитектуры Maxwell, и подробные данные об устройстве современных GPU вы можете найти в наших обзорах предыдущих решений компании Nvidia. Как и предыдущие графические процессоры, чипы новой архитектуры имеют разную конфигурацию вычислительных кластеров Graphics Processing Cluster (GPC), потоковых мультипроцессоров Streaming Multiprocessor (SM) и контроллеров памяти:

Графический процессор GP106 имеет в своем составе два кластера GPC, состоящие из 10 потоковых мультипроцессоров (Streaming Multiprocessor - SM), то есть ровно половину от имеющегося в GP104. Как и в старшем GPU, каждый из мультипроцессоров содержит по 128 вычислительных ядер, по 8 текстурных блоков TMU, по 256 КБ регистровой памяти, по 96 КБ общей памяти и по 48 КБ кэш-памяти первого уровня. В результате, GeForce GTX 1060 содержит в целом 1280 вычислительных ядер и 80 текстурных модулей - вдвое меньше, чем у GTX 1080.

А вот подсистема памяти GeForce GTX 1060 не была урезана вдвое относительно топового решения, она содержит шесть 32-битных контроллеров памяти, дающих итоговую 192-битную шину памяти. При эффективной частоте GDDR5-видеопамяти для GeForce GTX 1060, равной 8 ГГц, пропускная способность достигает 192 ГБ/с, что для решения такого ценового сегмента весьма неплохо, особенно с учетом высокой эффективности ее использования в Pascal. К каждому из контроллеров памяти привязаны восемь блоков ROP и 256 КБ кэш-памяти второго уровня, поэтому в целом полная версия графического процессора GP106 содержит 48 блоков ROP и 1536 КБ L2-кэша.

Для снижения требований к пропускной способности памяти и более эффективного использования имеющейся в архитектуре Pascal было дополнительно улучшено внутричиповое сжатие информации без потерь, которое способно сжимать данные в буферах, получая прирост в эффективности и производительности. В частности, в чипах нового семейства были добавлены новые методы дельта-сжатия с соотношением 4:1 и 8:1, обеспечивающие дополнительные 20% к эффективности ПСП по сравнению с предыдущими решениями семейства Maxwell.

Базовая частота нового GPU равна 1506 МГц - ниже этой отметки частота не должна опускаться в принципе. Типичная турбо-частота (Boost Clock) намного выше и равна 1708 МГц - это среднее значение реальной частоты, на которой работает графический чип GeForce GTX 1060 в большом наборе игр и 3D-приложений. Реальная Boost-частота зависит от игры и условий, в которых происходит тестирование.

Как и остальные решения семейства Pascal, модель GeForce GTX 1060 не просто работает на высокой тактовой частоте, обеспечивая высокую производительность, но имеет и приличный запас по возможности разгона. Первые опыты говорят о возможности достижения частот порядка 2 ГГц. Неудивительно, что партнеры компании готовят в том числе и фабрично разогнанные варианты видеокарты модели GTX 1060.

Итак, главным изменением новой архитектуры стал технологический процесс 16 нм FinFET, применение которого при производстве GP106 позволило значительно повысить сложность чипа при сохранении сравнительно невысокой площади в 200 мм², поэтому данный чип архитектуры Pascal имеет заметно большее количество исполнительных блоков по сравнению с чипом Maxwell похожего позиционирования, произведенным с применением техпроцесса 28 нм.

Если GM206 (GTX 960) с площадью в 227 мм² имел под 3 млрд. транзисторов и 1024 ALU, 64 TMU, 32 ROP и 128-битную шину, то новый GPU вместил в 200 мм² уже 4,4 млрд. транзисторов, 1280 ALU, 80 TMU и 48 ROP с 192-битной шиной. Да еще при почти в полтора раза более высокой частоте: 1506 (1708) против 1126 (1178) МГц. И это при одинаковом энергопотреблении в 120 Вт! В итоге, графический процессор GP106 стал одним из самых энергоэффективных графических процессоров, вместе с GP104.

Новые технологии Nvidia

Одной из самых интересных технологий компании, которая поддерживается GeForce GTX 1060 и другими решениями семейства Pascal, является технология Nvidia Simultaneous Multi-Projection . Мы уже писали об этой технологии в обзоре GeForce GTX 1080, она позволяет использовать несколько новых техник для оптимизации рендеринга. В частности - одновременно проецировать VR-изображение сразу для двух глаз, в разы повышая эффективность использования GPU в условиях виртуальной реальности.

Для поддержки SMP во всех графических процессорах семейства Pascal есть специальный движок, который находится в PolyMorph Engine в конце геометрического конвейера перед блоком растеризации. С его помощью GPU может одновременно проецировать геометрический примитив на несколько проекций из одной точки, при этом эти проекции могут быть стерео (т. е. поддерживается до 16 или 32 проекций одновременно). Эта возможность позволяет графическим процессорам Pascal точно воспроизводить искривленную поверхность для VR-рендеринга, а также корректно выводить изображение на многомониторные системы.

Важно, что технология Simultaneous Multi-Projection уже сейчас интегрируется в популярные игровые движки (Unreal Engine и Unity) и игры, и на сегодняшний день о поддержке технологии заявлено для более чем 30 игр, находящихся в разработке, включая такие известные проекты, как Unreal Tournament, Poolnation VR, Everest VR, Obduction, Adr1ft и Raw Data. Интересно, что хотя Unreal Tournament не является VR-игрой, но в ней SMP используется для достижения более качественной картинки и повышения производительности.

Еще одной долгожданной технологией стал мощный инструмент для создания скриншотов в играх Nvidia Ansel . Этот инструмент позволяет создавать необычные и очень качественные скриншоты из игр, с ранее недоступными возможностями, сохраняя их в очень высоком разрешении и дополняя различными эффектами, и делиться своими произведениями. Ansel позволяет буквально построить скриншот так, как этого хочет художник, разрешая установить камеру с любыми параметрами в любую точку сцены, наложить на изображение мощные постфильтры или даже сделать 360-градусный снимок для просмотра в шлеме виртуальной реальности.

Nvidia стандартизировала интеграцию пользовательского интерфейса Ansel в игры, и сделать это очень просто - достаточно добавить в код несколько строк. Ждать появления этой возможности в играх уже не нужно, оценить способности Ansel прямо сейчас можно в игре Mirror’s Edge: Catalyst, а чуть позже она станет доступна и в Witcher 3: Wild Hunt. Кроме этого, в разработке находятся множество игровых проектов с поддержкой Ansel, включая такие игры, как Fortnite, Paragon и Unreal Tournament, Obduction, The Witness, Lawbreakers, Tom Clancy’s The Division, No Man’s Sky и другие.

Также новый графический процессор GeForce GTX 1060 поддерживает пакет инструментов Nvidia VRWorks , помогающий разработчикам создавать впечатляющие проекты для виртуальной реальности. Этот пакет включает множество утилит и инструментов для разработчиков, в том числе и VRWorks Audio, позволяющий выполнять очень точный расчет отражений звуковых волн от объектов сцены при помощи трассировки лучей на GPU. Также пакет включает интеграцию в VR и физических эффектов PhysX, чтобы обеспечить физически корректное поведение объектов в сцене.

Одной из самых ярких виртуальных игр, получившей преимущество от VRWorks, стала VR Funhouse - игра в виртуальной реальности самой Nvidia, которая бесплатно доступна в сервисе Valve Steam. Эта игра основана на движке Unreal Engine 4 (Epic Games), и она работает на видеокартах GeForce GTX 1080, 1070 и 1060 в связке с VR-шлемами HTC Vive. Мало того, исходный код этой игры будет публично доступен, что позволит другим разработчикам использовать готовые идеи и код уже в своих VR-аттракционах. Поверьте нам на слово, это одна из самых впечатляющих демонстраций возможностей виртуальной реальности.

В том числе благодаря технологиям SMP и VRWorks, использование графического процессора GeForce GTX 1060 в VR-приложениях обеспечивает вполне достаточную для начального уровня виртуальной реальности производительность, и рассматриваемый GPU соответствует минимальному требуемому аппаратному уровню в том числе для SteamVR, становясь одним из наиболее удачных приобретений для использования в системах с официальной поддержкой VR.

Так как модель GeForce GTX 1060 основана на чипе GP106, который по возможностям ничем не уступает графическому процессору GP104, ставшему основой для старших модификаций, то она поддерживает абсолютно все технологии, описанные нами выше.

Видеокарта GeForce GTX 1060 стала третьей моделью в новой линейке компании Nvidia, основанной на графических процессорах семейства Pascal. Новый технологический процесс 16 нм FinFET и оптимизации архитектуры позволили всем новым видеокартам достичь высокой тактовой частоты и разместить в GPU большее количество функциональных блоков в виде потоковых процессоров, текстурных модулей и других, по сравнению с видеочипами предыдущего поколения. Именно поэтому модель GTX 1060 стала самым выгодным и энергоэффективным решением и в своем классе и вообще.

Особенно важно то, что GeForce GTX 1060 предлагает достаточно высокую производительность и поддержку новых возможностей и алгоритмов при значительно меньшей цене, по сравнению со старшими решениями на GP104. Графический чип GP106, использующийся в новой модели, обеспечивает лучшую в классе производительность и энергоэффективность. Модель GeForce GTX 1060 специально спроектирована и отлично подойдет для всех современных игр при высоких и максимальных графических настройках в разрешении 1920x1080 и даже с включенным полноэкранным сглаживанием различными методами (FXAA, MFAA или MSAA).

А для желающих получить еще более высокую производительность при наличии дисплеев со сверхвысоким разрешением, у Nvidia есть топовые модели видеокарт GeForce GTX 1070 и GTX 1080, которые также весьма хороши по производительности и энергоэффективности. И все же сочетание низкой цены и достаточной производительности весьма выгодно отличает GeForce GTX 1060 на фоне старших решений. По сравнению с конкурирующей Radeon RX 480, решение Nvidia несколько быстрее при меньшей сложности и площади GPU, и имеет значительно лучшую энергоэффективность. Правда, она продается несколько дороже, так что у каждой видеокарты есть собственная ниша.

Видеокарта GeForce GTX 1080 Ti обладает 11Гб памяти GDDR5X, частотой графического процессора в 1583 МГц (с возможность разгона до 2000 МГц при штатной системе охлаждения), частотой памяти в 11 ГГц QDR, а также производительностью на 35% лучшей, чем у GeForce GTX 1080. И это при сниженной цене в 699$.

Новая видеокарта смещает GeForce GTX 1080 с позиции флагмана в линейке GeForce и становится самой быстрой графической картой, существующей на сегодняшний день, а также самой мощной картой на архитектуре Pascal.

Самая мощная игровая карта NVIDIA GeForce GTX 1080 Ti

NVIDIA GeForce GTX 1080 Ti является мечтой геймеров , которые смогут наконец наслаждаться последними играми класса ААА, играть в шлемах виртуальной реальности на высоком разрешении, наслаждаясь четкостью и точностью графики.

GTX 1080 Ti разрабатывалась как первая полноценная видеокарта для игр в 4K. Она оснащена самым новым и технологичным железом, которым не может похвастать ни одна другая видеокарта на сегодняшний день.

Вот официальная презентация NVIDIA GeForce GTX 1080 Ti

«Пришло время для чего-то нового. Того, что на 35% быстрее GTX 1080. Того, что быстрее Titan X. Давайте назовем это максимальной…

Год от года видеоигры становились все прекраснее, так что мы представляем топовый продукт нового поколения, чтобы вы могли наслаждаться играми нового поколения.»

Джен-Ксун

Характеристики NVIDIA GeForce GTX 1080 Ti

NVIDIA не поскупилась на начинку для своей новой и сверхмощной видеокарты.

Она оснащена тем же графическим процессором Pascal GP102 GPU, что и Titan X (P), но превосходит последнюю по всем показателям.

Процессор оснащен 12 млрд транзисторов и обладает шестью кластерами для обработки графики, два из которых блокированы. Это дает в общей сложности 28 мультипотоковых процессоров по 128 ядер каждый.

Таким образом, видеокарта GeForce GTX 1080 Ti обладает 3584 ядрами CUDA, 224 блоками отображения текстур и 88 ROP (блоки, отвечающие за z-буферизацию, сглаживание, запись финального изображения в кадровый буфер видеопамяти).

Диапазон разгона начинается от 1582 МГц до 2ГГц. Архитектура Паскаль создавалась преимущественно для разгона в референсе и более экстримального разгона в нестандартных моделях.

Видеокарта GeForce GTX 1080 Ti также обладает 11 Гб памяти GDDR5X , работающую через 352-битную шину . Флагман также оснащен самым быстрым решением G5X на сегодняшний день.

С новой системой сжатия и плиточного кэширования, пропускная способность видеокарты GTX 1080 Ti может быть увеличена до 1200 Гб/с, что превосходит достижения технологии AMD HBM2.

Спецификация NVIDIA GeForce GTX 1080 Ti:

Характеристики GTX TItan X Pascal GTX 1080 Ti GTX 1080
Техпроцесс 16 нм 16нм 16 нм
Транзисторов 12 млрд 12 млрд 7.2 млрд
Площадь кристалла 471мм² 471мм² 314мм²
Память 12 Гб GDDR5X 11 Гб GDDR5X 8 Гб GDDR5X
Скорость памяти 10 Гб/с 11 Гб/с 11 Гб/с
Интерфейс памяти 384-бит 352-бит 256-бит
Пропускная способность 480GB/s 484 GB/s 320GB/s
Ядер CUDA 3584 3584 2560
Базовая частота 1417 1607
Частота при разгоне 1530МГц 1583 МГц 1730 МГц
Вычислительная мощность 11 терафлопс 11.5 терафлопс 9 терафлопс
Тепловая мощность 250Вт 250Вт 180Вт
Цена 1200$ 699 US$ 499$

Охлаждение видеокарты NVIDIA GeForce GTX 1080 Ti

GeForce GTX 1080 Ti Founders оснащена новым решением распределения воздушного потока, который позволяет лучше охлаждать плату, а также длает это тише, чем предыдущие дизайнерские решения. Все это дает возможности сильнее разгонять видеокарту и достигать еще большей скорости. Кроме того, эффективность охлаждения улучшена за счет 7-фазной схемы питания на 14 dualFET-транзисторах высокой эффективности.

GeForce GTX 1080 Ti поставляется с последним NVTTM-дизайном, который представляет новую Vapor-камеру охлаждения, в которой в два раза большая площадь охлаждения, чем у Titan X (P). Этот новый тепловой дизайн помогает добиваться оптимального охлаждения и позволяет ускорить графический процессор видеокарты выше предусмотренных спецификацией показателей с технологией GPU Boost 3.0.

NVIDIA GeForce GTX 1080 Ti — мечта оверклокера

Итак, что нам делать с этой впечатляющей мощностью видеокарты? Ответ очевиден — разгонять до предела. Во время эвента, NVIDIA продемонстрировала выдающийся разгонный потенциал их видеокарты GTX 1080 Ti. Напомним, что им удалось достичь частоты процессора в 2,03ГГц на блокированных 60 FPS.

Согласно недавно опубликованным неофициальным данным, семейство графических процессоров на базе архитектуры Pascal может стать одним из наиболее полных модельных рядов компании NVIDIA в последние годы. Буквально за несколько месяцев фирма представила четыре GPU на основе Pascal и при этом не собирается останавливаться на достигнутом. По словам главы компании, далеко не все микросхемы Pascal, не говоря уже о реальных продуктах, были представлены. Судя по всему, в ближайшее время нас ждут новые анонсы.

NVIDIA Pascal: восемь продуктов за четыре месяца

Начиная с апреля этого года NVIDIA представила четыре микросхемы на основе Pascal: GP100 c 16 Гбайт памяти HBM2, GP102 c поддержкой GDDR5X, GP104 и GP106. При этом компания анонсировала восемь продуктов на основе указанных GPU (если не считать за отдельные продукты разного рода специальные редакции указанных ниже, а также специализированные устройства типа DGX-1): GeForce GTX 1080/1070 (GP104), GeForce GTX 1060 (GP106), TITAN X (GP102 + 12 Гбайт GDDR5X), Quadro P5000 (GP104GL + 16 Гбайт GDDR5X), Quadro P6000 (GP102GL + 24 Гбайт GDDR5X), Tesla P100 SXM и Tesla P100 PCIe (обе на базе GP100 + 16 Гбайт HBM2).

Хотя четыре GPU и восемь продуктов за четыре месяца это весьма выдающееся достижение, заметно, что компания не представила ни одного нового решения для ноутбуков, а также ни одной новой графической карты дешевле $250. По словам главы NVIDIA, компания готовит новые GPU на базе Pascal, они уже существуют в кремнии, но на рынок выйдут лишь через некоторое время.

NVIDIA: Все Pascal готовы, но не все представлены

«Мы спроектировали, верифицировали и начали производство всех GPU на базе архитектуры Pascal », — сказал Дженсен Хуанг (Jen-Hsun Huang), исполнительный директор NVIDIA, в ходе телеконференции с инвесторами и финансовыми аналитиками. «Однако мы пока не представили все эти графические процессоры».

Новые конфигурации

Впрочем, интерес для любителей игр и энтузиастов производительности представляют не столько GP107, GP108 и внутреннее строение GP102, сколько тот факт, что каждая микросхема Pascal будет существовать по меньшей мере в двух базовых конфигурациях (с точки зрения идентификатора PCIe ID, который использует драйвер NVIDIA). Это открывает возможности для создания массы новых продуктов на базе микросхем GP100, GP102, GP104 и GP106.

Так, GP104 существует в конфигурации GP104-A и GP104-B, а также в виде версий с включённым ускорением для профессиональных приложений — GP104GL-A и GP104GL-B. Мы не знаем, чему именно соответствуют литеры «A» и «B», но можем предположить, что «A» обозначает микросхему в максимальной конфигурации. Таким образом, GP104-A может соответствовать GeForce GTX 1080, а GP104-B — GeForce GTX 1070.

Принимая во внимание, что микросхемы GP102 и GP106 также существуют в двух конфигурациях (во всяком случае, об этом говорят база данных AIDA64 и драйверы NVIDIA), но при этом на их базе имеется лишь по одному продукту (GeForce GTX 1060 и TITAN X), мы вполне можем ожидать появления новых решений на их основе. Будут ли эти карты быстрее или медленнее имеющихся — покажет время. Во всяком случае, GP102 может масштабироваться как «вверх» (до 3840 потоковых процессоров), так и «вниз». При этом, разумеется, нельзя исключать гипотетической возможности появления третьей версии GP102-С, в случае, если она понадобится NVIDIA.

Так или иначе, очевидно, что NVIDIA планирует расширять семейство графических карт на базе Pascal. Хотя ближайшие планы явно должны включать в себя мобильные и массовые GPU, очень вероятно, что в будущем нас ждут новые решения для высокопроизводительных игровых ПК.

Мы переходим к еще одной особенности GeForce GTX 1080, которая сделала эту модель первой в своем роде - поддержке памяти GDDR5X. В этом качестве GTX 1080 какое-то время будет единственным продуктом на рынке, поскольку уже известно, что GeForce GTX 1070 будет укомплектован стандартными чипами GDDR5. В сочетании с новыми алгоритмами компрессии цвета (об этом также чуть позже) высокая ПСП (пропускная способность памяти) позволит GP104 более эффективно распоряжаться имеющимися вычислительными ресурсами, чем это могли себе позволить продукты на базе чипов GM104 и GM200.

JEDEC выпустила финальные спецификации нового стандарта лишь в январе текущего года, а единственным производителем GDDR5X на данный момент является компания Micron. На 3DNews не было отдельного материала, посвященного этой технологии, поэтому мы кратко опишем те нововведения, которые приносит GDDR5X, в данном обзоре.

Протокол GDDR5X имеет много общего с GDDR5 (хотя электрически и физически те и другие чипы различаются) - в отличие от памяти HBM, которая представляет собой принципиально другой тип, что делает делает практически неосуществимым сосуществование с интерфейсом GDDR5(X) в одном GPU. По этой причине GDDR5X называется именно так, а не, к примеру, GDDR6.

Одно из ключевых различий между GDDR5X и GDDR5 состоит в возможности передачи четырех бит данных на одном цикле сигнала (QDR - Quad Data Rate) в противоположность двум битам (DDR - Double Data Rate), как это было во всех предшествующих модификациях памяти DDR SDRAM. Физические же частоты ядер памяти и интерфейса передачи данных располагаются приблизительно в том же диапазоне, что у чипов GDDR5.

А чтобы насытить данными возросшую пропускную способность чипов, в GDDR5X применяется увеличенная с 8n до 16n предвыборка данных (prefetch). При 32-битном интерфейсе отдельного чипа это означает, что контроллер за один цикл доступа к памяти выбирает уже не 32, а 64 байта данных. В итоге результирующая пропускная способность интерфейса достигает 10-14 Гбит/с на контакт при частоте CK (command clock) 1250-1750 МГц - именно эту частоту показывают утилиты для мониторинга и разгона видеокарт - такие, как GPU-Z. По крайней мере, сейчас в стандарт заложены такие показатели, но в будущем Micron планирует достигнуть чисел вплоть до 16 Гбит/с.

Следующее преимущество GDDR5X состоит в увеличенном объеме чипа - с 8 до 16 Гбит. GeForce GTX 1080 комплектуется восемью чипами по 8 Гбит, но в дальнейшем производители графических карт смогут удвоить объем RAM по мере появления более емких микросхем. Как и GDDR5, GDDR5X допускает использование двух чипов на одном 32-битном контроллере в так называемом clamshell mode, что в результате дает возможность адресовать 32 Гбайт памяти на 256-битной шине GP104. Кроме того, стандарт GDDR5X помимо равных степени двойки описывает объемы чипа в 6 и 12 Гбит, что позволит варьировать общий объем набортной памяти видеокарт более «дробно» - например, оснастить карту с 384-битной шиной RAM чипами на суммарные 9 Гбайт.

Вопреки ожиданиям, которые сопровождали первую информацию о GDDR5X, появившуюся в открытом доступе, энергопотребление нового типа памяти сравнимо с таковым у GDDR5 либо лишь немного превышает последнее. Чтобы компенсировать возросшую мощность на высоких значениях пропускной способности, создатели стандарта снизили питающее напряжение ядер с 1,5 В, стандартных для GDDR5, до 1,35 В. Кроме того, стандарт в качестве обязательной меры вводит управление частотой чипов в зависимости от показателей температурного датчика. Пока неизвестно, насколько новая память в действительности зависима от качества теплоотвода, но не исключено, что мы теперь чаще будем видеть на видеокартах системы охлаждения, обслуживающие не только GPU, но и чипы RAM, в то время как производители карт на базе GDDR5 в массе своей пренебрегают этой возможностью.

Может возникнуть впечатление, что переход с GDDR5 на GDDR5X был несложной задачей для NVIDIA в силу родства данных технологий. К тому же, GeForce GTX 1080 комплектуется памятью с наименьшей пропускной способностью, определенной стандартом - 10 Гбит/с на контакт. Однако практическая реализация нового интерфейса сопряжена с рядом инженерных трудностей. Передача данных на столь высоких частотах потребовала тщательной разработки топологии шины данных на плате с целью минимизировать наводки и затухание сигнала в проводниках.

Результирующая пропускная способность 256-битной шины в GeForce GTX 1080 составляет 320 Гбайт/с, что несущественно меньше скорости 336 Гбайт/с, которой характеризуется GeForce GTX 980 Ti (TITAN X) с его 384-битной шиной GDDR5 при 7 Гбит/с на контакт.

Теперь PolyMorph Engine может создавать одновременно вплоть до 16 проекций (viewport’ов), размещенных произвольным образом, и сфокусированных на одной или двух точках, сдвинутых по горизонтальной оси относительно друг друга. Данные преобразования выполняются исключительно в «железе», и не вызывают снижения производительности как такового.

У этой технологии есть два вполне предсказуемых применения. Первое - это шлемы VR. За счет двух центров проекции Pascal может создавать стерео-изображение за один проход (впрочем, речь идет только о геометрии - GPU по-прежнему придется совершить вдвое больше работы, чтобы выполнить растеризацию текстур в двух кадрах).

Кроме того, SMP позволяет на уровне геометрии выполнять компенсацию искажения картинки, которую вносят линзы шлема. Для этого изображения для каждого глаза формируется четырьмя отдельными проекциями, которые затем склеиваются в плоскость с применением фильтра пост-обработки. Таким образом не только достигается геометрическая точность итогового изображения, но и снимается необходимость в обработке 1/3 пикселов, которые в противном случае все равно были бы потеряны при финальной коррекции стандартной плоской проекции под кривизну линз.

Единственная оптимизация для VR, которой обладал Maxwell, состояла в том, что периферические зоны изображения, которые компрессируются наиболее сильно для вывода через линзы, могли рендериться с пониженным разрешением, что давало экономию пропускной способности лишь на 10-15%.

Следующая область, в которой востребована функция SMP, - это мультимониторные конфигурации. Без SMP изображение на нескольких состыкованных дисплеях представляет собой плоскость с точки зрения GPU, и выглядит геометрически корректно при условии, что экраны перед зрителем выстроены в линию, но стыковка под углом уже не выглядит корректно - как если бы вы просто согнули в нескольких местах большую фотографию. Не говоря уже о том, что в любом случае зритель видит именно плоское изображение, а не окно в виртуальный мир: если повернуть голову к боковому экрану, объекты в нем останутся растянутыми, так как виртуальная камера по-прежнему смотрит в центральную точку.

С помощью SMP драйвер видеокарты может получить информацию о физическом расположении нескольких экранов с тем, чтобы проецировать изображение для каждого из них через собственный viewport, что в конечном счете функционально приближает мультимониторную сборку к полноценному «окну».

Вкратце, задача тройной буферизации в том, чтобы отделить процесс рендеринга новых кадров в конвейере GPU от сканирования изображения из кадрового буфера за счет того, что видеокарта может создавать новые кадры со сколь угодно высокой частотой, записывая их в два сменяющихся кадровых буфера. При этом содержимое самого последнего кадра с частотой, кратной частоте обновления экрана, копируется в третий буфер, откуда монитор может его забрать без разрывов картинки. Таким образом, кадр, который попадает на экран, в момент начала сканирования всегда содержит последнюю информацию, которую произвел GPU.

Тройная буферизация наиболее полезна для мониторов с частотой обновления экрана 50-60 Гц. При частотах 120-144 Гц, как мы уже писали в статье, посвященной G-Sync, включение вертикальной синхронизации уже, в принципе, увеличивает латентность несущественно, но Fast Sync уберет ее до минимума.

Если вы задаетесь вопросом, как Fast Sync соотносится с G-Sync (и ее аналогом Free Sync от AMD - но это чисто теоретический вопрос, т.к. NVIDIA поддерживает только свой вариант), то G-Sync снижает латентность в ситуации, когда GPU не успевает произвести новый кадр к моменту начала сканирования, а Fast Sync - напротив, снижает латентность, когда частота обновления кадров в конвейере рендеринга выше частоты обновления экрана. К тому же, эти технологии могут работать совместно.

GeForce GTX 1080 Founder’s Edition: конструкция

Этим пышным именем теперь называется референсная версия GeForce GTX 1080. Начиная с GeForce GTX 690 NVIDIA уделяет большое внимание тому, в какой форме их новые продукты выходят на рынок. Референсные образцы современных видеокарт под маркой GeForce далеки от своих невзрачных предшественников, оснащавшихся сравнительно неэффективными и шумными системами охлаждения.

GeForce GTX 1080 Founder’s Edition вобрал в себя лучшие черты дизайна видеокарт Kepler и Maxwell: алюминиевый кожух турбины, крыльчатка кулера, изготовленная из малошумного материала, и массивная алюминиевая рама, придающая жесткость конструкции и снимающая тепло с микросхем RAM.


В составе GTX 1080 присутствуют одновременно два компонента, которые периодически то появляются, то пропадают из референсных видеокарт NVIDIA - радиатор GPU с испарительной камерой и задняя пластина. Последняя частично демонтируется без отвертки, дабы обеспечить приток воздуха кулеру соседней видеокарты в режиме SLI.

Помимо своей представительской функции, референсный образец видеокарты нужен для того, чтобы конечные производители видеокарт могли закупать его - в данном случае у NVIDIA - и удовлетворять спрос, пока не будут готовы устройства оригинального дизайна на том же GPU. Но в этот раз NVIDIA планирует сохранять референсную версию в продаже на протяжении всего срока жизни модели и распространять, среди прочего, через свой официальный сайт. Так мотивирована на $100 более высокая цена GTX 1080 FE по сравнению с рекомендованными для всех остальных $599. В конце концов, Founder’s Edition не выглядит и не является дешевым продуктом.

В то же время, видеокарта имеет референсные частоты, ниже которых, как обычно, не опустится ни один производитель карт оригинального дизайна. Не идет речи и о каком-либо отборе GPU для GTX 1080 FE по разгонному потенциалу. Стало быть, во всей массе реализаций GeForce GTX 1080 могут оказаться и более дорогие. Но какое-то время Founder’s Edition будет преобладающей и даже единственной версией флагманского Pascal, что автоматически повышает его розничные цены на $100 сверх «рекомендации» NVIDIA.

Интернет