首页 > 硬件知识 > CPU

高清从这里开始 英特尔最新SSE4指令集详解

admin CPU 2022-02-08 14:59:37 指令   详解   最新   英特尔   这里   开始   高清   SSE4   处理器   Intel"
近几年来,AMD和Intel这两大处理器界里面的巨头有着无数次的针锋相对。而每次对碰都会擦出激情的光芒,无论是AMD A64处理器灵光闪现,还是Intel 酷睿的光芒四射,都为原本平淡无奇的CPU市场注入了新鲜血液和活力。不得不承认若没有两家针锋相对的竞争,CPU的发展也不会如此神速,时代的更迭也不会如此日新月异。
  而目前Intel无论是在技术还是在工艺上面,都无可争议的领先于对手。尤其Intel在进入45nm时代之后,更是将酷睿2的优势发挥得淋漓尽致。45nm工艺的Intel酷睿2 处理器家族是基于Intel 45 nm晶体管技术的下一代英特尔酷睿2系列处理器。该技术可谓晶体管领域的新突破,不仅将晶体管密度提升了近两倍,同时还大幅降低了漏电率。而更重要的是Intel最新的45nm系列产品还添加了强大的Intel SSE4指令集,而且还对微体系结构进行了改进,将为您提供出色的性能和能效表现,此外还能兼容现有软件。对于开发人员而言,这就意味着现有软件能够拥有更高的性能和能效表现,以及进一步优化的可能,以充分利用Intel SSE4 和微体系结构增强技术。

高清从这里开始英特尔最新SSE4指令集详解
Intel开创处理器高清新时代
  Intel Intel SSE4 指令包括矢量化编译器和媒体加速器指令。未来的英特尔处理器将支持其余指令,而软件也将能从程序的角度检测出处理器支持哪些Intel® SSE4 指令。那么我们曾多次提到SSE4指令集,相信很多消费者对其还非常陌生,究竟是何方神圣能够为Intel处理器带来如此大的改进呢?下面就让我们来了解一下这款什么的指令集吧!

高清从这里开始英特尔最新SSE4指令集详解
Intel Intel SSE4 指令包括矢量化编译器和媒体加速器指令
  SSE4的英文全称是:Streaming SIMD Extensions 4,是英特尔自从SSE2之后对ISA扩展指令集最大的一次的升级扩展。新指令集增强了从多媒体应用到高性能计算应用领域的性能,同时还利用一些专用电路实现对于特定应用加速。
  从指令数目上看,SSE4指令增加了的指令改进了整数和浮点操作,支持DWORD和QWORD操作,新的单精度FP操作、快速寄存器操作、面向性能优化的内存操作等等,包括了图形、图像、数据装载各方面的革新,因此称其为SSE2以来最大的指令集变动也是不为过的。利用支持SSE4指令集的编译器编译之后,包括图形/图像处理、视频处理、2D/3D创作、多媒体、游戏、内存敏感负载、高性能计算等应用都会受益。
  SSE4指令集将分为两个版本:4.1和4.2,SSE4.1版本随着45nm Penryn发布,而SSE4.2版本将会随着下一代架构Nehalem发布,4.1将包括47条指令,4.2将包括7条指令。
技术领先 强大的SSE4指令集解析
  据Intel指出,在应用SSE4指令集后,Penryn增加了2个不同的32Bit向量整数乘法运算支持,引入了8位无符号 (Unsigned)最小值及最大值运算,以及16Bit 及32Bit 有符号 (Signed) 及无符号运算,并有效地改善编译器效率及提高向量化整数及单精度代码的运算能力。同时,SSE4 改良插入、提取、寻找、离散、跨步负载及存储等动作,令向量运算进一步专门化。

  不仅如此,Intel SSE4指令集还进一步增强讯编码效果,例如可同时处理8个4-byte宽度的SAD(Sums of Absolute Differences)运算,常用于新一代高清影像编码如VC.1及H.264等规格中,令视频编码速度进一步提升。因此在播放高清视频的时候,即使在软解的情况下也同样游刃有余。

高清从这里开始英特尔最新SSE4指令集详解(2)
有效地改善编译器效率及提高向量化整数及单精度代码的运算能力
  SSE4 构建于英特尔64 指令集架构 (Intel® 64 Instruction Set Architecture) (ISA),该架构是开发 32 位和 64 位应用最为广泛应用的电脑架构。Intel® SSE4 包含 54 条指令,主要分为两类:矢量化编译器和媒体加速器,以及高效加速字符串和文本处理。矢量化编译器和媒体加速器可提供高性能的编译器函数库,如封包(同时使用多个操作数)整数运算和浮点运算,可生成性能优化型代码。此外,它还包括高度优化的媒体相关运算,如绝对差值求和、浮点点积和内存负载等。矢量化编译器和媒体加速器指令可改进音频、视频和图像编辑应用、视频编码器、3D 应用和游戏的性能。高效加速字符串和文本处理包含多个压缩字符串比较指令,允许同时运行多项比较和搜索操作。由此受益的应用包括数据库和数据采掘应用,以及那些利用病毒扫描和编译器等分析、搜索和模式匹配算法的应用。

高清从这里开始英特尔最新SSE4指令集详解(2)
SSE4加入了6条浮点型点积运算指令


  SSE4加入了6条浮点型点积运算指令,支持单精度、双精度浮点运算及浮点产生操作,且IEEE 754指令 (Nearest, -Inf, Inf, and Truncate) 可立即转换其路径模式,大大减少延误,这些改变将对游戏及 3D 内容制作应用有重要意义。此外,SSE4加入串流式负载指令,可提高以图形帧缓冲区的读取数据频宽,理论上可获取完整的快取缓存行,即每次读取64Bit而非8Bit,并可保持在临时缓冲区内,让指令最多可带来8倍的读取频宽效能提升,对于视讯处理、成像以及图形处理器与中央处理器之间的共享数据应用,有着明显的效能提升。



统一CPU和GPU?Nehalem时代即将来临
  Nehalem微架构最高支持4颗处理器的Quick Path多路服务器环境,单一芯片最高可拥有2、4及8颗核心,支持经改良的Hyper-Theading技术,令单颗处理器最高可支持16 Threads,而且Nehalem架构中的Havendale亦将会内建绘图核心。新增SSE4.2指令集及ATA指令集令系统性能全面提升,令人期待。此外,新一代Nehalem将会放弃FSB设计,采用全新的Quick Path Interconnect架构,现时已得知服务器版本的Nehalem处理器最高可拥有4组Quick Path Interconnect,并至少可组成四颗处理器的数据可直接互换的4Ways服务器架构。

高清从这里开始英特尔最新SSE4指令集详解(3)
Nehalem搭配了高速三级缓存
  英特尔每次在缓存和指令集上的小小改进都会对处理器的性能产生质的变化。最新的45nm Nehalem产品中将出现第二代SSE4技术,这比目前的45nm处理器更为强大,我们可以将其看成是一种流SIMD扩展:SSE 4.2。据了解,Nehalem将包含一个全新的ATA中心和文字与字符串处理引擎,这意味着该处理器对于文本的处理性能将有很大提升。此外,基于XML文件作为病毒定义的反病毒软件也可能因此而受益。
  对于Nehalem的SSE4.2,Intel的Gelsinger介绍说,这7条指令集的用途各有不同,比如有面向CRC-32和POP Counts等特定应用的,有特别针对XML等的流式指令。Gelsinger称,新指令集可以将256条指令合并在一起执行,从而让XML类工作的性能提高3倍。

高清从这里开始英特尔最新SSE4指令集详解(3)
Nehalem性能相比上一代提升30%
  预计在2009年的第二季末,Intel将会推出内建绘图核心的处理器,核心代号为Havendale,这是一颗针对主流级市场的双核心处理器,采用45nm制程,支持SMT(Simultaneous Multi-Threading),L2 Cache容量最高为4M。虽然同样内建内存控制器及PCI-Express绘图接口,但它却不是原生设计,Havandale把绘图核心、PCI-Express绘图接口及内存控制器制作成一颗芯片,与处理器核心采用MCP(Multi-Chip Package)封装在一起,两者将采用Quick Path Interconnect连接。相信大家更关心的是Intel能否真的将CPU和GPU真正的同一!
新老对决 SSE4指令集绝对值得期待

高清从这里开始英特尔最新SSE4指令集详解(4)

  Intel最新45nm处理器还加入了0.5倍频调节,增加了SSE4指令集,Wolfdale增加了2个不同的32Bit向量整数乘法运算支持,引入了8 位无符号 (Unsigned)最小值及最大值运算,以及16Bit 及32Bit 有符号 (Signed) 及无符号运算,并有效地改善编译器效率及提高向量化整数及单精度代码的运算能力。同时,SSE4 改良插入、提取、寻找、离散、跨步负载及存储等动作,令向量运算进一步专门化。

  此外,SSE4加入串流式负载指令,可提高以图形帧缓冲区的读取数据频宽,理论上可获取完整的快取缓存行,即每次读取64Bit而非8Bit,并可保持在临时缓冲区内,让指令最多可带来8倍的读取频宽效能提升,对于视讯处理、成像以及图形处理器与中央处理器之间的共享数据应用,有着明显的效能提升。

高清从这里开始英特尔最新SSE4指令集详解(4)

高清从这里开始英特尔最新SSE4指令集详解(4)

高清从这里开始英特尔最新SSE4指令集详解(4)
  在SSE4指令集中,共引入了47条新的多媒体运算指令。其中一条“streaming load instruction”流加载指令引起了广泛的注意。该指令为16bit同步加载指令,但加载结果将会存储在高优先级的临时流缓冲中,绕过普通的CPU Cache。这一指令将有利于GPU从CPU中高速共享数据,加速图像处理。

  从Intel 45nm产品的性能以及规格来看都要比上一代的65nm产品有了长足的进步,同时在超频潜力上又有了一个质的飞跃。这让更多的I饭们看到冲击极限的希望。而且由于45nm制程在成本上将会更低,因此在中低端市场的竞争中Intel 45nm制程的新处理器将更具有冲击力。值得期待……


版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。
本文地址:/Hardware/CPU/95009.html

留言与评论(共有 0 条评论)
   
验证码:

潘少俊衡

| 桂ICP备2023010378号-4

Powered By EmpireCMS

爱享小站

中德益农

谷姐神农

环亚肥料

使用手机软件扫描微信二维码

关注我们可获取更多热点资讯

感谢潘少俊衡友情技术支持