百词斩手机版2017 官网:APU五宗惑,揭开Llano APU的达芬奇密码

来源:百度文库 编辑:中财网 时间:2024/04/29 13:58:56
APU五宗惑,揭开Llano APU的达芬奇密码
ugmbbc发布于 2011-06-27 15:35:05| 14127 次阅读  提及AMD公司过往的辉煌,我们总是绕不开K8时代,在Intel拼命用长流水线、高频率提高Pentium 4处理器的性能时,AMD则靠着K8大锤整合内存控制器、HT直连总线等技术优势在CPU频率较低的情况下依然能轻松掀翻Intel的P4。

美好总是短暂的,Intel痛定思痛之后实现了华丽的转身,Core架构一举成名,而K8之后的AMD推出的基于K10架构的Phenom及改进型Phenom II并不出彩,性能上K10处理器一直都被Intel的CPU所压制而无反抗之力。

又是几年过去了,AMD现在又有一个新的机会掀翻Intel,等等,你以为这里还在“说推土机”?不,“推土机”虽然也 是AMD翻身的筹码,但是它并不是唯一的王牌,今天我们要谈的是AMD忽悠宣传了多年的Llano APU(Accelerated Processing Unit)。虽然推土机是AMD全新研发的架构,而APU只是现有架构的重新组合,但是APU是AMD“自主创新”的产物,是Intel没有的东西,这个 才是决定胜负的关键。

推土机小道消息满天飞,相比之下大家对APU的关注就少了很多,至少从爆料网站出现的次数来看APU对推土机是处于劣势的。不过这并没有影响APU的推进,至少APU还是可以领先推土机问世的,有句话叫做“闷声发大财”,用在APU身上是最恰当不过的。

本月底Llano APU的桌面版就将正式发布,而移动版的APU在月中就已经发布。不管读者先前了解APU也好,还是没有什么了解,此次我们准备了五个问题要问APU,大 家不妨一起考一考这个新生代,它的回答不仅会揭开APU身上的达芬奇密码,更能影响大家对APU接受与否的意愿,现在先让它来回答第一个棘手的问题吧。

K10构架尚能饭否?

A系列APU的CPU架构代号“Stars”,与E-350使用的“Bobcat”架构一样都是K10架构的衍生品,只不过Bobact为了实现极低的功耗,架构变化方向是极度精简(双发射乱序执行架构),Stars为了保证性能水准,在K10基础上还略有增强。


Stars与Phenom、Bobcat架构对比

相比阉割过多的Bobcat架构,Stars架构保留了三发射指令体系、完整的128KB L1缓存,L2缓存则增加到每核1MB,比Phenom II的512KB高出一倍,与双核心的Athlon II相同,唯一不利的地方是删减了L3缓存,因为L3缓存占据庞大的核心面积和晶体管,羿龙II从一代的4.63亿晶体管跃升为7.58亿晶体管,主要原 因就是L3缓存从2MB增加到6MB。


Stars处理器的一个内核结构图

没有了L3缓存,内存延迟会更高,特别是在一些大数据量运算和游戏中,Llano的CPU性能肯定会受一些影响,为此 AMD改进了基于IP(Instruction Pointer,指令指示器)的HW Prefetcher(硬件预读器)设计,Reorder缓冲器容量提高了20%,而Load/Store单元的缓冲器容量直接翻倍,新增硬件除法器 (Hardware Divider)等,AMD称Stars的IPC(Instructions Per Clock)性能相比当前的CPU提高了6%。

从上面的分析可以看到,即使Stars架构削减了L3缓存,其性能也不比当前的K10处理器差,相反还要好一些,但是我 们还要看到架构上的东西是理论上的,A系列APU一大不足就是频率保守,最顶级的A8-3850默认频率也不过2.9GHz,移动平台的最低只有 1.4GHz,核心频率还是比较低的,为此AMD再次祭出Turbo Core为部分APU提供加速。


部分APU也支持Turbo Core加速技术

目前已知的型号中,TDP功耗为65W的A6-3600、A8-3800支持Turbo Core加速,分别可以从2.1/2.4GHz最多提高到2.4/2.7GHz,而TDP功耗为100W的A8-3850、A6-3650不支持加速,频 率只有2.9GHz、2.6GHz,相对目前3GHz以上的桌面CPU来说性能上略有不足。

整合GPU不再鸡肋?

CPU部分让AMD没有底气,但是提到GPU,又该轮到Intel萎了,好不容易在SNB架构中借着新架构的HD 3000的东风赢回了一点面子,现在APU来了,带来的是更强的GPU性能。

之前AMD整合平台的GPU一直是集成在北桥里的,最高端的型号为HD 4290,频率为700MHz,但是流处理器单元(以下简称SP)只有40个,看个高清什么的还可以,玩个3D游戏也只能在低分辨低画质下才有可能(当然,这已经比Intel当时的集显好多了)。


APU集成的GPU规格大跃进,达到了中低端独显的水平

在APU时代,AMD也将GPU整合进CPU核心内部,而且GPU也不再是CPU的附庸,而是成为CPU之外的“另一 极”,首先是GPU规格大跃进,相比整合主板时代的鸡肋感,APU里的显卡起步就是160个SP,达到了入门级HD 6450独显的水平;A4、A6、A8分别会集成240、320、400个SP,其中A8的集显已经达到了HD 5570的水平,相比以往的集显其性能提升不可同日而语。


APU支持AMD的Dual Graphics,类似于之前的Hybrid CrossFire混合交火

除了规格上的提高,APU还可以支持AMD的Dual Graphics技术与独显联合工作,它类似于曾经昙花一现的Hybrid CF混合交火技术。不同等级的APU支持的独显型号也不一样,以移动平台为例,A8级别的APU支持HD 6700M到HD 6400M全系列A卡,而A4级别的APU因为整合的GPU性能有限,只能支持HD 6400M系列的Dual Graphics交火。


APU的视频功能是一大亮点

最后一个值得关注的是APU的UVD3解码引擎和AMD Steady Video视频稳定技术。UVD3引擎除了对MPEG-2、H.264和VC-1三大高清电影的全程硬解支持外,还可以硬解Divx/Xvid编码影片,并支持蓝光3D加速。

Steady Video视频稳定技术很有趣,手持DV拍摄的视频常常因为各种原因的抖动造成拍摄的视频跳动不止,回放时很影响观看。现在有了视频稳定技术就可以消除抖动,还原真实画质。

夸完好的一面,我们再来泼一盆凉水。APU集成的显卡规格确实很高,硬件规格上达到了中低端独立显卡的水平,但是从国内 外的测试结果来看,无论是桌面平台还是移动平台,Llano的GPU性能都达不到同等规格独显的性能水平,虽然GPU频率和CPU性能也会对性能有影响, 但是最主要的还是架构设计上的问题。


这是HD 6570/6670的架构图


这是A8集成的GPU架构图

先无视上面两图中的SIMD阵列数量的问题,这两者最大的区别就末端处理单元,独显最末端接的2组64bit GDDR5显存控制器,而APU中的显卡末端接的是北桥,与内存控制器对接。虽然也是2组64bit位宽组成双通道128bit模式,但是DDR3的带宽 显然大大低于GDDR5,而且这部分带宽还要在GPU和CPU之间共享,GPU的带宽不足造成了性能的损失。

解读:

相比CPU的弱势,AMD在GPU上可以扬眉吐气一把。APU集成的GPU规格大幅攀升,超过了入门级HD 6450,已经达到了中低端独显的水平,具体游戏性能更是甩开之前的整合平台几条街,Intel的HD 3000更是望尘莫及。

不过APU的集显也没有那么完美,同等SP数量下其3D性能要明显低于独立显卡,根据测试结果来看,400SP的 A8-3850只比160SP的HD 6450略高,与HD 5570还有较大差距。排除频率差异的影响,还有一个重要因素不开忽视:APU里的GPU显存控制器对接了CPU的内存控制器,可以直接访问内存,CPU 和GPU要共享内存带宽。

GPU抢食CPU性能?

AMD的融合概念已经喊了好几个年头了,直到现在的APU上才算真正有点融合的意味,CPU和GPU真正开始共享内存,不过就是这一点融合也带来了严重的挑战——如何在资源共享的同时保证二者的性能互不受影响,而不会出现1+1<2的意外情况。


Radeon Memory Bus

从前一节的GPU架构图上我们就已经注意到了,APU中GPU末端与北桥相连,可以通过北桥的直接访问DDR3内存,这 被AMD称为Radeon Mmeory Bus(Radeon内存总线)。这看起来与以往的GPU—北桥—内存的路径并没有不同,但是GPU实际上是可以直接读取内存数据的,延迟要比过往模式要 低。

除了Radeon Memory Bus之外还有一条“总线”——Fusion Compute Link(简称FCL),这是一条并行总线,类似于(CPU与北桥之间的)HT总线,它可以让GPU高速访问CPU缓存和内存,其效率比通过PCIE总线 访问要高,这也缓解了GPU对带宽的渴求。

Radenon Memory Bus和FCL总线降低了GPU访问内存的延迟和复杂度,但是APU的问题不在这里,而是总带宽不足。

之前AMD整合平台集成的显卡位于北桥,也是共享内存设计,但是GPU受限内存带宽的情况并不突出,首先是因为先前的集 显规格较低,譬如HD 4290最多只有80SP,对带宽要求并不高,而且还有SidePort板载显存技术辅助,也可一定程度上降低对内存性能依赖。如今APU里的显卡规格极 速攀升,已经达到了中低端独显的水平,因此对数据带宽的要求也提升了一个量级,与CPU争抢内存带宽的矛盾一下子暴露出来。

先来看独显的带宽要求,桌面版的HD 5570可以选择搭配900MHz的DDR3或者900-1000MHz的GDDR5显存,前者带宽为900MHz*2*128bit/8=28.8GB /s,搭配GDDR5带宽则有900(1000)MHz*4*128bit/8=57.6GB/s(64GB/s),数据带宽还是很充裕的,那么DDR3 内存能提供多少带宽呢?


Radeon Memory Bus

移动平台的APU支持双通道DDR3 1600MHz模式,内存带宽有1600MHz*128bit/8=25.6GB/s,桌面平台APU支持双通道DDR3 1866,内存带宽则为1866MHz*128bit/8=29.8GB/s,也就是说即使是高配版的APU其总带宽也只有独显搭配DDR3显存时的带 宽,此外还请注意两点,上述25.6GB/s和29.8GB/s只是理论计算出来的,实际内存性能大大低于理论值。第二则是,即使达到理论带宽,GPU和 CPU还是要共享内存带宽的,GPU可用的带宽依然远低于独显。

内存带宽问题成了APU性能提升的一个瓶颈,虽然现在这还不是一个严重的问题,但是迟早会成为影响APU前进的绊脚石。提升内存带宽可以从以下三个方面着手:

1. 提升内存频率,这个是最简单直接的方法。目前桌面版的APU已经支持DDR3 1866标准,内存带宽相交当前1333MHz的主流高了40%,不过从1866MHz继续提升内存频率也没那么简单,高频内存售价高,消费者不一定买账。

2. 提升内存通道,现在的主流是双通道,提至四通道就可以让内存带宽翻倍,极大地缓解GPU的带宽需求。桌面CPU只有Intel的LGA1366平台支持三 通道,大部分仍为双通道模式,这里还有潜力可挖,Intel下一代X79平台就支持四通道内存,AMD的服务器CPU现在就已经支持四通道内存,未来的 APU支持四通道内存并非难事。

3. 显存做内存,天堑变通途。在DDR3以前,显存和内存是没有区分的,未来也有可能再次走到一起。目前的GDDR5是四倍数率,而DDR3内存是双倍数率, 显存作为内存就可以不做任何改变的情况下带宽翻倍。这项技术实现起来难度比前面两条更大,但是却是一劳永逸,而且GDDR和DDR的技术规格本来是一样 的,变迁的难度主要在成本上,希望技术的进步可以尽快解决这个问题。

解读:

AMD的融合概念终于在APU身上得到体现,但是也面临着更多的挑战。CPU和GPU开始共享资源,期间必然要面对资源 分配的问题,由于GPU已经整合进CPU内部,板载显存的方式已经不可能,AMD改进了GPU访问缓存和内存的方式,不过DDR3的带宽有限,依然无法匹 敌同等级独显的带宽,这对APU的3D性能有了不利影响。

功耗是否飙升?

GPU联姻CPU之后我们还要关注一个问题,那就是处理器功耗。一般来说,四核CPU的TDP功耗在65W-95W之间,显卡功耗有几百W的,也有二十几W的,HD 5570的TDP功耗为43W,那么APU的功耗又如何呢,不会是二者之和吧?

好消息是APU的功耗并不夸张,移动版的APU功耗在35/45W之间,桌面级的APU功耗则有65W/100W两个级别,虽然绝对数值还有一点点高,但是也要看到APU集成的显卡规格较高,这一点代价还是值得的。

APU控制功耗的第一大功臣是GlobalFounderies公司的32nm SOI工艺。制程工艺一直是AMD的软肋,好在现在AMD也赶上来了。工艺升级的好处是非常明显的,APU在整合了四个CPU核心、一个高性能GPU核心 之后依然保持了可接受的TDP功耗和核心面积。


GF 32nm SOI高K金属栅工艺是APU瘦身节能的最大功臣

制程工艺的进步也为APU带来了新的电源管理技术——Power Gate(电源门控)、Digital APM(Advanced Power Management,高级电源管理)以及Clock Grid(时钟网络)等,其实这三项技术与推土机处理器上使用的功耗管理技术是一样的。 


Clock Gate示意图


数字APM模块可以精确测量每个CPU内核的状态

这里要多提几句,除了上述硬件级的功耗控制技术外,由于GPU与CPU的功能融合,APU也支持动态调整CPU与GPU负载,在性能与功耗之间取得平衡。

实现这一功能依靠的是AMD的Turbo Core技术。在APU里,GPU的功耗总是获得优先权的,在放DVD、看视频这样低要求的应用中,GPU的电源消耗一般很低,那么APU就有更多的资源为CPU加速。


GPU轻负载下,APU就倾向于最大程度为CPU加速

不过AMD的Turbo Core有一点不足,就是只能加速CPU,而无法加速GPU,而Intel的Turbo Boost 2.0还可以为GPU加速。

解读:

APU使用了GF的32nm工艺,先进的工艺不仅减少了APU的核心面积,而且也成功地控制了APU的功耗水平,再加上 几种功耗管理技术的进步,集成了高性能GPU之后的APU功耗依然保持在主流水准,移动平台的APU功耗有35W和45W两种,桌面版的APU功耗则在 65W和100W,而且部分65W的APU可以支持Turbo Core加速,单核性能也有一定提高,100W的则因功耗较高不支持Turbo Core加速。

插槽又要换新?

每当有新CPU问世时,消费者担心最多的问题往往是配套平台是否要一起换掉?如果主板也要换新,这意味着升级成本较高,可能会影响消费者的购买愿望。Intel这三年来几乎是一代一换,一年一换,频繁的更换配套主板让厂商乐不可支,但用户却是怨声载道。

AMD这几年的平台升级都保持了良好的向下兼容性,推土机虽然说是要换成AM3+插槽,不过随着厂商对AM3主板的破解,推土机一样可以兼容AM3主板,兼容问题并不需要担心。作为新事物登场的APU则不一样,CPU针脚和主板插槽都有很大变化,全面换新是少不了的。


Intel和AMD的处理器插槽路线图(注意图中Socket FM1的934针脚数是错误的)

服务器平台的先不去管他,从这张表上我们可以看到,从2011年开始AMD桌面级CPU插槽除了AM3+之外还会有 Socket FM1,移动平台则会过渡到Socket FS1,取代Socket S1,由于移动平台对升级要求不高,所以Socket FS1怎么变对普通消费者影响不大,这里我们只看桌面平台的Socket FM1。

 


Socket FM1插槽

Socket FM1插槽也是31*31排列,四周空位占去13个,中间的空位占去8个,空洞部分是5*7,占去35个,因此总的针脚位数为961-13-8-35=905个,相比之下AM3插槽位940,AM3+为941个。


桌面级APU的针脚

同样地,桌面级APU的针脚也有961-13-8-35=905个,与插槽上的孔位完全对应。这一点与AM3/AM3+的CPU针脚略少于主板插槽孔位的状况不一样。

很明显地,APU无论是CPU针脚还是主板插槽都与目前的AM3/AM3+不成一体,物理上没有兼容的可能。在这一点上AMD与Intel类似,高端平台使用一套平台,主流平台使用另一套平台,未来推土机量产之后,AMD也将是AM3+与FM1两条腿走路。

与之对应的主板芯片组,推土机平台的9系列芯片组已经发布,990FX、990X、970X构成了市场主力,而APU平台则转向FCH(Fusion Controller Hub)单芯片组。


AMD FCH家族一览

FCH代号Hudson,分别有面向超便携平台、移动平台和桌面平台的E、M和D系列之分,之前的Brazos平台的 E-350搭配的大都是Hudson-M1。在这几款芯片组中,Hudson-M3(A70)和Hudson-D3(A75)通过了USB-IF官方认 证,原生支持USB 3.0,在推动原生USB 3.0的大路上迈出了第一步。


桌面级APU支持PCI-E x16插槽

E-350系列的配套主板只有四条PCI-E通道可供独显使用,实用价值不大,还好桌面级的APU芯片组拥有16条独立的PCI-E通道,还可以拆分为x8+x8的模式支持CF交火。

解读:

由于架构设计变化很大,APU也不再需要独立的北桥,因此AMD为APU另造了新家,带来了Socket FM1/FS1插槽,不能兼容于当前的AM3/AM3+主板。这很好理解,而且还算是可以接受的事(虽然内心还是期望APU能支持当前的主板),至少比 Intel前两年的做法要好一些。

APU配套的主板也是另起炉灶,技术规格变化不大,不过原生支持USB 3.0很让人期待,而且厂商主推的APU主板基本就是支持USB 3.0的A70和A75这两款,再加上APU本身的优势,总的来看APU平台还是很值得尝试的,即使不兼容也不是什么阻碍,喜欢的就拥抱APU吧。

不破不立,APU不走寻常路

从2006年收购ATI之后,AMD就开始提Fusion融合的概念,这一年来才开始有些成果,去年底就已经拿出了面向 便携平台的E系列APU,我们也测过了其中的多款E350主板,不得不承认E-350的低功耗让人印象深刻,但是笔者并不看好它,因为它的性能与主流 CPU相差太大,售价也相对较高,消费者用同样的价格完全可以DIY自己的低功耗HTPC。

目前面向移动和桌面平台的A系列APU让人很是期待,因为它的CPU是在K10.5基础上做了增强,集成GPU的规格则 比以往的整合平台高出一个量级,达到了中低端独显的水平,而整个APU的功耗还能控制在主流水平,换句话说A系列的APU并没有E系列那样的鸡肋感,无论 用户是从功耗、性能还是成本方面考量都有值得选择的理由。

AMD已经在6月14日发布了A系列APU,国内则要等到本月底,相应的板卡厂商都在积极准备。目前尚未确定的是APU 的售价问题,已经发布的评测中大都是谈论APU性能如何好或者如何差,但是较少涉及到价格问题,私以为这个问题才是消费者最为关心的问题,架构、技术什么 的只是厂商的遮羞布,大家看了也就看了,没看也不会有什么遗憾。

前两日有国外的电子网站列出A系列APU的部分售价,A8-3850的售价在150美元(折合人民币约969元),四核 心,频率2.9GHz,TDP功耗100W,不支持Turbo Core,GPU为400SP,频率600MHz。考虑到新品上市价格略贵,A8-3850的这个价位还有下调的空间,毕竟3GHz的Athlon II X4 640处理器+HD 6570的组合也不过千元左右,性能还更高,APU就算再好也不会毫无理智地追捧,等待降价吧。


APU很快就会成为AMD处理器的主力

APU是AMD的心血之作,再过几日就会正式出现在世人面前。这里我们给它准备了五个问题,分别涉及APU的CPU、 GPU、资源共享、功耗管理以及配套平台,它给出的回答总体还算满意,在GPU性能、功耗管理上都优于当前的AMD平台,只是APU要做的问题还很多,升 级CPU架构、协调好GPU/CPU资源、增强Turbo Core的灵活性等等。

AMD将APU称为“X86架构三十年来最大革命”,对APU自豪之情溢于言表。相比之下,“推土机”处理器同样也是 AMD的“儿子”,但是推土机做的再好,也逃不了Intel追随者的宿命,而APU是AMD“亲生的”,做得好了可以为自己开辟新天地,有机会做领跑 者,Intel反而要调头追赶自己。从这个意义上看,AMD称之为革命并非没有道理,现在就要看APU的实际表现了。

文/expreview