当前微处理器技术发展的几个方向
提高架构执行效率、多核心设计、灵活的扩展弹性、深层次的功能整合是当前微处理器领域的四大技术发展方向。处理器效率低下的弊端主要出现在X86领域,X86指令集臃肿复杂,指令效率已明显低于RISC体系,如果不在芯片设计方面加以弥补,X86处理器很难获得媲美RISC产品的卓越性能。
衡量处理器效率通常有两个指标:一是芯片的能源利用效率,也就是每瓦性能,在消耗同等能源条件下,最终性能高的产品能源效率就较高;第二个指标便是芯片的晶体管效率,我们可以引入“每晶体管性能”来衡量,在消耗等量晶体管数量条件下,芯片效能高者效率就越高。
晶体管规模越大,制造成本越高,对芯片厂商来说,提高每晶体管性能能够在保持成本不变的前提下获得更卓越的性能。一般来说,每瓦性能和每晶体管性能总是被结合起来讨论,不同指令体系的产品在此相差甚远,例如当前顶级的RISC处理器与顶级的X86处理器作对比,我们便会发现X86芯片远远落后。
即便基于相同的指令体系但设计不同的产品,也可能存在悬殊的效率差异—一个最典型的例子就是英特尔Netburst架构与AMD64架构,Pentium 4芯片的功耗更高,晶体管规模也普遍更大,但性能无法同对应的AMD64架构产品抗衡。且Pentium 4芯片的能耗已超过百瓦,达到风冷散热的极限,无法进一步向上提升。
为了解决这个问题,英特尔将在今年中期引入Merom架构来代替Netburst,诚如我们之前的分析,Merom引入了RISC精简指令的思想,对X86架构进行根本性的改进得以大幅提高效率。而在RISC技术领域,提高效率也一直都是各制造商的目标,虽然RISC芯片在这方面已占据先天优势,但各芯片厂商仍然在此方面花费巨大的精力并获得斐然成果。在本文关于P.A.Semi的PWRficient双核处理器、SUN UltraSPARC T1八核处理器的分析中,我们将能看到这一点。
多核心设计可谓是提高每晶体管效能的最佳手段。在单核产品中,提高性能主要通过提高频率和增大缓存来实现,前者会导致芯片功耗的提升,后者则会让芯片晶体管规模激增,造成芯片成本大幅度上扬。尽管代价高昂,这两种措施也只能带来小幅度性能提升。而如果引入多核技术,便可以在较低频率、较小缓存的条件下达到大幅提高性能的目的。相比大缓存的单核产品,耗费同样数量晶体管的多核心处理器拥有更出色的效能,同样在每瓦性能方面,多核设计也有明显的优势。
正因为如此,当IBM于2001年率先推出双核心产品之后,其他高端RISC处理器厂商也迅速跟进,双核心设计由此成为高
端RISC处理器的标准。而X86业界直到去年中期才开始尝试推出双核产品,预计实现全面普及要等到2006-2007年。
此时,RISC业界又朝向多核、多线程的方向发展,四核心、八核心设计纷纷登台亮相,并行线程数量多达32条,并且开始从通用多核体系转向简化核以及专用化的DSP,实现性能的跨越性提升—这些新设计和新方向也都将被X86业界所借鉴。
在多路服务器领域,芯片能否具有良好的扩展弹性至关重要,而这主要取决于以下两大要素:第一,处理器拥有一条专门的芯片间直连总线,这样当系统中拥有多枚处理器的时候,各个处理器可借助该总线进行通讯,从而实现高效的任务协作;第二,处理器是否将内存控制器直接整合、拥有一套独立的内存系统。这方面反面的例子就是英特尔的Xeon平台,如果要构建多路Xeon系统,那么就必须依赖于芯片组,多枚处理器共同分享一套内存系统。
处理器之间如果需要进行数据通讯,就必须经由“前端总线-北桥-内存”的链路,这个过程不仅耗费了可观的时钟周期,也消耗了总线和内存资源。更严重的是,这类系统存在内存抢占和缓存同步两个难题:内存抢占是指当多个处理器同时发起对内存中的某段数据进行存取指令时,各个处理器必须以抢占的方式获得内存存取权限—如果有一个处理器对某段数据进行修改,该处理器就会锁定这段数据,其他的处理器必须等待,导致性能提升幅度大打折扣。
系统中的处理器数量越多,此种内存抢占现象就会越频繁,最糟糕的时候将导致系统的性能不升反降。缓存同步主要出现在多处理器/多内核协作处理同一任务时,各个处理器或内核必须进行缓存同步。由于Xeon缺乏直接沟通渠道,缓存同步操作也必须依赖“前端总线-北桥-内存”的链路进行,效率较为低下。
相比之下,AMD的Opteron平台就没有这两个问题:借助HyperTransort总线,Opteron处理器可实现直接通讯,加之Opteron拥有独立的内存控制器,不存在内存抢占的问题,因此该平台非常易于扩展。Opteron在服务器领域对Xeon造成强大的压力,很大程度上就是得益于此。至于RISC领域,芯片直连总线和整合内存控制器也早已成为处理器的标准设计,而英特尔在自己的技术蓝图上也表明将在2008年开始采用类似的设计。
对应用于PC的X86处理器而言,处理器的扩展弹性无关紧要,但整合内存控制器还是非常有意义,原因在于该项设计能够有效降低内存系统的延迟时间。事实上,这只是整合运动的开始,不少处理器厂商都在考虑让处理器整合越来越多的功能,例如SUN和AMD都在考虑在下一代架构中直接整
合PCI Express控制器、I/O控制器甚至是图形功能,借此提升系统的I/O性能以及降低平台成本;P.A.Semi的PWRficient处理器则整合了10GbE和GbE网络控制器以及PCI Express控制器,目的是提高相应服务器的网络性能和I/O传输效能。尽管其他的处理器厂商似乎不为所动,但高度的整合无疑是未来处理器的发展方向之一。
当前微处理器技术发展的几个方向
提高架构执行效率、多核心设计、灵活的扩展弹性、深层次的功能整合是当前微处理器领域的四大技术发展方向。处理器效率低下的弊端主要出现在X86领域,X86指令集臃肿复杂,指令效率已明显低于RISC体系,如果不在芯片设计方面加以弥补,X86处理器很难获得媲美RISC产品的卓越性能。
衡量处理器效率通常有两个指标:一是芯片的能源利用效率,也就是每瓦性能,在消耗同等能源条件下,最终性能高的产品能源效率就较高;第二个指标便是芯片的晶体管效率,我们可以引入“每晶体管性能”来衡量,在消耗等量晶体管数量条件下,芯片效能高者效率就越高。
晶体管规模越大,制造成本越高,对芯片厂商来说,提高每晶体管性能能够在保持成本不变的前提下获得更卓越的性能。一般来说,每瓦性能和每晶体管性能总是被结合起来讨论,不同指令体系的产品在此相差甚远,例如当前顶级的RISC处理器与顶级的X86处理器作对比,我们便会发现X86芯片远远落后。
即便基于相同的指令体系但设计不同的产品,也可能存在悬殊的效率差异—一个最典型的例子就是英特尔Netburst架构与AMD64架构,Pentium 4芯片的功耗更高,晶体管规模也普遍更大,但性能无法同对应的AMD64架构产品抗衡。且Pentium 4芯片的能耗已超过百瓦,达到风冷散热的极限,无法进一步向上提升。
为了解决这个问题,英特尔将在今年中期引入Merom架构来代替Netburst,诚如我们之前的分析,Merom引入了RISC精简指令的思想,对X86架构进行根本性的改进得以大幅提高效率。而在RISC技术领域,提高效率也一直都是各制造商的目标,虽然RISC芯片在这方面已占据先天优势,但各芯片厂商仍然在此方面花费巨大的精力并获得斐然成果。在本文关于P.A.Semi的PWRficient双核处理器、SUN UltraSPARC T1八核处理器的分析中,我们将能看到这一点。
多核心设计可谓是提高每晶体管效能的最佳手段。在单核产品中,提高性能主要通过提高频率和增大缓存来实现,前者会导致芯片功耗的提升,后者则会让芯片晶体管规模激增,造成芯片成本大幅度上扬。尽管代价高昂,这两种措施也只能带来小幅度性能提升。而如果引入多核技术,便可以在较低频率、较小缓存的条件下达到大幅提高性能的目的。相比大缓存的单核产品,耗费同样数量晶体管的多核心处理器拥有更出色的效能,同样在每瓦性能方面,多核设计也有明显的优势。
正因为如此,当IBM于2001年率先推出双核心产品之后,其他高端RISC处理器厂商也迅速跟进,双核心设计由此成为高
端RISC处理器的标准。而X86业界直到去年中期才开始尝试推出双核产品,预计实现全面普及要等到2006-2007年。
此时,RISC业界又朝向多核、多线程的方向发展,四核心、八核心设计纷纷登台亮相,并行线程数量多达32条,并且开始从通用多核体系转向简化核以及专用化的DSP,实现性能的跨越性提升—这些新设计和新方向也都将被X86业界所借鉴。
在多路服务器领域,芯片能否具有良好的扩展弹性至关重要,而这主要取决于以下两大要素:第一,处理器拥有一条专门的芯片间直连总线,这样当系统中拥有多枚处理器的时候,各个处理器可借助该总线进行通讯,从而实现高效的任务协作;第二,处理器是否将内存控制器直接整合、拥有一套独立的内存系统。这方面反面的例子就是英特尔的Xeon平台,如果要构建多路Xeon系统,那么就必须依赖于芯片组,多枚处理器共同分享一套内存系统。
处理器之间如果需要进行数据通讯,就必须经由“前端总线-北桥-内存”的链路,这个过程不仅耗费了可观的时钟周期,也消耗了总线和内存资源。更严重的是,这类系统存在内存抢占和缓存同步两个难题:内存抢占是指当多个处理器同时发起对内存中的某段数据进行存取指令时,各个处理器必须以抢占的方式获得内存存取权限—如果有一个处理器对某段数据进行修改,该处理器就会锁定这段数据,其他的处理器必须等待,导致性能提升幅度大打折扣。
系统中的处理器数量越多,此种内存抢占现象就会越频繁,最糟糕的时候将导致系统的性能不升反降。缓存同步主要出现在多处理器/多内核协作处理同一任务时,各个处理器或内核必须进行缓存同步。由于Xeon缺乏直接沟通渠道,缓存同步操作也必须依赖“前端总线-北桥-内存”的链路进行,效率较为低下。
相比之下,AMD的Opteron平台就没有这两个问题:借助HyperTransort总线,Opteron处理器可实现直接通讯,加之Opteron拥有独立的内存控制器,不存在内存抢占的问题,因此该平台非常易于扩展。Opteron在服务器领域对Xeon造成强大的压力,很大程度上就是得益于此。至于RISC领域,芯片直连总线和整合内存控制器也早已成为处理器的标准设计,而英特尔在自己的技术蓝图上也表明将在2008年开始采用类似的设计。
对应用于PC的X86处理器而言,处理器的扩展弹性无关紧要,但整合内存控制器还是非常有意义,原因在于该项设计能够有效降低内存系统的延迟时间。事实上,这只是整合运动的开始,不少处理器厂商都在考虑让处理器整合越来越多的功能,例如SUN和AMD都在考虑在下一代架构中直接整
合PCI Express控制器、I/O控制器甚至是图形功能,借此提升系统的I/O性能以及降低平台成本;P.A.Semi的PWRficient处理器则整合了10GbE和GbE网络控制器以及PCI Express控制器,目的是提高相应服务器的网络性能和I/O传输效能。尽管其他的处理器厂商似乎不为所动,但高度的整合无疑是未来处理器的发展方向之一。