Архитектура Pascal, включающая на данный момент три чипа GP104, GP106 и GP107 (GP102 в расчет не берем из-за его узкой специализации), многое унаследовала от Maxwell (читайте об этой архитектуре здесь). Используется та же кластерная структура, где кластер GPC (Graphics Processing Cluster) является самостоятельным вычислительным блоком. Отличия кроются не только в техпроцессе и количестве кластеров, но и в структуре. Посмотрим особенности архитектуры Pascal на примере старшего чипа GP104.
В прошлом поколении использовался 28 нм техпроцесс, и кластер включал в себя четыре крупных мультипроцессорных блока SMM. У GP104, выполненному по 16 нм техпроцессу, младшие исполнительные блоки сгруппированы в пять мультипроцессорных блоков SM. Каждый SMM блок обработки данных связан со своим блоком обработки геометрии Polymorph Engine, которых теперь 20 вместо 16 у GM204.
Один SM разбит на четыре массива обработки данных со своей управляющей логикой. Мультипроцессор оперируют 128 потоковыми ядрами (CUDA cores). В SM есть 96 КБ общей кэш-памяти, отдельный текстурный кэш и восемь текстурных блоков. В итоге получаем 2560 потоковых процессоров и 160 текстурных блоков. У нового процессора, также как и у GM204, 64 блока ROP и кэш-память L2 объемом 2 МБ.
Благодаря новому техпроцессу GP104 компактнее GM204 при большем количестве вычислительных блоков. При этом новый процессор имеет больше возможностей для повышения частот. Изначально для него установлено базовое значение в 1607 МГц при среднем Boost Clock 1733 МГц. Пиковые значения частоты еще выше. С такими рекордными частотами GeForce GTX 1080 укладывается в TDP 180 Вт. Ниже представлена таблица характеристик старого и нового чипа.
GP104 | GM204 | |
Техпроцесс | 16 нм | 28 нм |
Площадь кристалла | 314 мм² | 398 мм² |
Количество транзисторов | 7,2 млрд | 5,2 млрд |
Количество GPC | 4 | 4 |
Количество SM | 20 | 16 |
Количество CUDA-ядер | 2560 | 2048 |
Количество текстурных блоков | 160 | 128 |
Количество ROP | 64 | 64 |
Тактовая частота | 1607 (1733) МГц | 1126 (1216) МГц |
Шина памяти | 256 бит | 256 бит |
Кэш второго уровня | 2048 Кбайт | 2048 Кбайт |
Энергопотребление | 180 Вт | 165 Вт |
Пиковая вычислительная мощность на Boost-частоте | 8873 ГФЛОПС | 4981 ГФЛОПС |
В Pascal изменилась вся подсистема работы с памятью. Вместо четырех 64-битных контроллеров реализовано восемь 32-битных, что обеспечивает разрядность шины памяти в 256 бит. Также рост пропускной способности обеспечивают микросхемы нового стандарта GDDR5X (используется только в старшей модели GTX 1080), у которых эффективное значение обмена данных эквивалентно частоте 10 ГГц. Передача данных на столь высоких частотах потребовала тщательной разработки топологии шины данных на плате с целью минимизировать наводки и затухание сигнала в проводниках.
Как упоминалось выше, на данный момент выпущено три чипа с архитектурой Pascal: GP104, GP106 и GP107. Для более удобного сравнения характеристик видеокарт, построенных на этих чипах, предлагаем ознакомиться с таблицей ниже.
GTX 1080 | GTX 1070 | GTX 1060 6GB | GTX 1060 3GB | GTX 1050 Ti | GTX 1050 | |
Кодовое название чипа | GP104 | GP106 | GP107 | |||
Техпроцесс | 16 нм | 14 нм | ||||
Число транзисторов, | 7200 млн | 4400 млн | 3300 млн | |||
Тактовая частота: Base Clock / Boost Clock | 1607 / 1733 МГц | 1506 / 1683 МГц | 1506 / 1708 МГц | 1290 / 1392 МГц | 1354 / 1455 МГц | |
CUDA Cores | 2560 | 1920 | 1280 | 1152 | 768 | 640 |
Число текстурных блоков | 160 | 120 | 80 | 72 | 48 | 40 |
Число ROP | 64 | 48 | 32 | |||
Разрядность шины памяти | 256 бит | 192 бит | 128 бит | |||
Тип микросхем памяти | GDDR5X SDRAM | GDDR5 SDRAM | ||||
Быстродействие памяти | 10 Гбит/с | 8 Гбит/с | 7 Гбит/с | |||
Объем, Гбайт | 8 Гбайт | 6 Гбайт | 3 Гбайт | 4 Гбайт | 2 Гбайт | |
Шина ввода/вывода | PCI Express 3.0 x16 | |||||
Пропускная способность памяти, | 320 Гбайт/с | 256 Гбайт/с | 192 Гбайт/с | 112 Гбайт/с | ||
Интерфейсы вывода изображения | DVI-D (Dual-Link), 1 HDMI v2.0b, 3 DisplayPort v1.4 | |||||
TDP | 180 Вт | 150 Вт | 120 Вт | 75 Вт |
Из других нововведений архитектуры Pascal отметим следующие:
- Используется новый алгоритм дельта-компрессии цвета, смысл которого состоит в том, чтобы обнаружить группы соседних пикселов, слабо отличающихся по цвету, и кодировать их цвет в виде опорного (reference) значения и отступлений от последнего (собственно, дельта). Алгоритм 4:1 работает на более тонких градиентах, а комбинированный режим 8:1 позволяет взять два блока, сжатых по схеме 4:1 и отобразить в виде опорного значения и дельты между ними – что в итоге обеспечивает восьмикратное сжатие данных.
- Аппаратная поддержка технологии мультипроецирования для работы одновременно с разными проекциями изображения. Специальный блок Simultaneous Multi-Projection внутри PolyMorph Engine 4.0 отвечает за формирование разных проекций при обработке одного потока геометрии. Этот блок обрабатывает геометрию одновременно для 16 проекций с одним или двумя центрами перспективы. Это не требует повторной обработки геометрии и позволяет реплицировать данные до 32 раз (16 проекций на две точки). Такая методика формирования изображения позволяет наиболее эффективно использовать изогнутые панели, мультимониторные конфигурации и расширяет возможности Pascal при формировании стерео-изображения и в системах виртуальной реальности (VR).
- Эффект погружения усиливает технология VRWorks Audio, воссоздающая реалистичный звук с учетом положения источника звуковых волн и отражения их от поверхностей. Технология использует движок OptiX, который изначально использовался для просчета освещения по методу трассировки лучей. Отслеживается путь звуковых «лучей» от источника до отражающих поверхностей и обратно.
- Предусмотрена возможность прерывания (preemption) в процессе исполнения draw call (при рендеринге) и потока команд (при вычислениях), которая вместе с динамическим распределением вычислительных ресурсов GPU обеспечивает полноценную поддержку асинхронных вычислений (Async Compute) - дополнительного источника быстродействия в играх под API DirectX 12 и сниженной латентности в VR.
- Поддерживается аппаратное декодирование и кодирование видео в форматах H.264, H.265 (HEVC) и VP9;
- Реализована совместимость с интерфейсами DisplayPort 1.3/1.4 и HDMI 2.b с HDCP 2.2 и поддержка подключения до 4 мониторов (видеокарты могут оснащаться тремя портами DisplayPort, одним HDMI и одним Dual-Link DVI), в том числе и дисплеев HDR, обеспечивающих охват видимого цветового пространства в 75%. Такие дисплеи отображают больше оттенков, имеют выше яркость и глубже контраст, позволяя рассмотреть больше тонких цветовых нюансов. Кроме декодирования HDR поддерживается и аппаратное кодирование для записи видео такого стандарта.
- Обновленная технология SLI доступна только в старших моделях (GTX 1080 и GTX 1070). Скорость интерфейса повышена до 650 МГц благодаря использованию сразу двух интерфейсов обмена данными и новых сдвоенных мостиков SLI HB. Поддерживается два SLI-режима: MDA (Multi Display Adapter) и LDA (Linked Display Adapter). Первый подразумевает классический принцип работы, в котором каждый GPU работает лишь со своими чипами памяти, и способен работать с разными чипами. Второй режим предназначен для объединения видеокарт с идентичными чипами. Главной его особенностью стала возможность объединения массива видеопамяти в единый банк. Обращение одного адаптера к памяти другого осуществляется через шину PCI Express, что приводит к определенной задержке.
Что касается производительности. То она на ожидаемо высоком уровне по сравнению с предшественниками (подробные тесты не составит труда найти специальных ресурсах). Если коротко, то новый флагман GTX 1080 в среднем на 32% оказывается производительнее GeForce GTX 980 Ti в рамках значительно меньшего теплопакета. GeForce GTX 1070 отстает от GeForce GTX 1080 на 17-18 % и опережает GeForce GTX 970 на 60 %. Видеокарта GTX 1060 с 6 ГБ памяти оказалась быстрее, чем Radeon RX 480 в большинстве тестов в среднем на 13%. GTX 980 она не догнала, но оказалась несколько шустрее GTX 970. Младшие модели GTX 1050/1050 Ti пришли на смену GTX 750/750 Ti и успешно конкурируют с Radeon RX 460 с 2 и 4 Гбайт RAM соответственно.
Наличие и цену видеокарт уточняйте здесь.
Использованы материалы сайтов:
3dnews.ru
thg.ru
ferra.ru
overclockers.ua