Allion Labs/ Blake Chu

现今SSD主流已从当初的2.5吋SATA SSD进化到体积只有一半不到的M.2 NVMe SSD。当体积越小,代表了速度将有明显地提升,延迟也会降低,而体积小的SSD也更能应用在更广泛的地方,如车载系统、亦或是未来5G架构系统的应用。NAND Flash为SSD内部担任储存数据的组件,一般来说,影响NAND Flash数据保存,除了抹写次数(PE/Cycle),温度也是另一个因素;如在极端的条件下使用,在长时间与不同的温度变化也会对NAND Flash数据保存(Data Retention)造成影响。为何这两点会影响到SSD数据保存呢?我们简单概述一下NAND Flash基本原理。

NAND Flash基本操作的主要三动作:写入读取抹除

  • 写入: 数据在NAND Flash中是以电子形式(electrical charge)储存。储存电子的高低电位,取决于Control Gate所被施加的电压(图1),当一正电压加于Control Gate时,传送电子通过第一个绝缘体进入Floating Gate内,当Floating Gate被注入负电子时,在位中1就会变成0,此时为写入。
  • 读取: 当读取数据时,同样会在Control Gate施加电压,吸住Floating Gate里的电子,利用电流来感应Floating Gate里的电子数量,靠感应到的电子数量转换为二进制的0与1,最后输出成数据,此时为读取。
  • 抹除: 当Control Gate加进负电压时,会将电子传送到Floating Gate外,而当负电子从Floating Gate移除后,位也就从0变回1,此时为抹除。

图1

 

随着读取、抹写次数上升,电子多次穿越将造成漏电情况,也就是电子无法维持在Floating Gate,而导致数据错误。此类型情况也会随着芯片制程提升(MLC->TLC),导致薄膜层越薄,使电子穿越所能承受的次数变的更少。另一方面,当SSD处于高温下,也会影响电子的行为导致无法正确保存数据。针对上述情况,JEDEC固态技术协会已对一般客户及企业订出了温度规范(图2),可见温度对于SSD数据存储的影响不可小觑。


图2

 

SSD高温老化测试案例分析

由于车用乃至于工业用的SSD,特别注重数据保存能力以及可在高温下维持功能与性能(如延迟时间(Latency))。百佳泰针对温度是否会对SSD数据保存(Data Retention)造成影响,特别挑选四个市面上常见M.2 NVMe SSD来进行高温老化测试,利用长时间高温加速老化,观察这些SSD在接近寿命终点时的情况。

在进行测试实验前,我们已将这些SSD维持相同的条件:已经使用过一段时间、并写入了大量的数据(写入数据内容依据JEDEC协会规范制定)。在确认SSD状态以及SMART(Self-Monitoring Analysis and Reporting Technology)皆正常后,将SSD断电放进烤箱,设置4种不同时间与温度进行测试。当完成指定的长时间温度测试后,再将SSD从烤箱取出,最终在测试仪器上执行SSD SMART检查以及全碟读取检查。 (图3)

图3

 

Phase 0: 40°C/24HR

第一阶段测试我们先用正常温度40°C来检视这4个SSD状态,作用于基准值并跟后续高温测试进行比较。从图4来看,经过40°C/24HR后,4个SSD在执行全碟读取检查的运行时间相差不大;但SSD A所需的时间较其他三个长一些。

另从全碟读取检查的指令响应时间统计百分比来看(图5),SSD A的延迟时间在Rank B区间较其他三颗稍多了些。


图4

图5

(Rank A低于0.5mSec,代表延迟低,性能好;而当Rank高于10mSec,则代表延迟高,性能差。故Rank能集中在AB是相对好的)

 

Phase 1: 125°C/24HR

第二阶段测试我们进入高温状态(125°C)并连续24小时烘烤SSD,来观察125度高温是否对SSD有影响。从图6来看,经过125°C/24HR后,4个SSD在执行全碟读取检查的运行时间都因为高温而变长;而SSD A在这阶段的测试里所需的时间也相较于其他3颗明显变得更长,从结果判断得知SSD A会因高温而影响效率。

从全碟读取检查的指令响应时间统计百分比来看,SSD A开始在Rank C/D出现些许延迟的现象;SSD B也表现出轻微的延迟,SSD C & D则未有明显的影响。到目前为止4个SSD尚未出现状态错误(SMART error),或command error的情况发生。


图6

 

 

Phase 2: 125°C/120HR

从Phase 1结果来看,4个SSD的性能尚未分出胜负。这一阶段,我们一样维持125度,但将时间拉长5倍到120HR观察。从图7来看,经过125°C/120HR后,4个SSD都因为长时间高温让执行全碟读取检查的运行时间拉长,尤以SSD A来看,所需的时间竟拉到了近5小时之高。

从全碟读取检查的指令响应时间统计百分比来看, SSD A因在长时间及高温的状态下,呈现高延迟现象;相较于Phase 1的Rank D数据,竟达12倍之多的差距(18.8%)。此外,SSD B也不遑多让,延迟时间相对提升;而SSD D也在此时开始出现延迟的情况(Rank B)。

在这一阶段测试环节中,SSD C全身而退,尚未出现任何影响。到目前为止4颗SSD也还未出现状态错误(SMART error),及command error情况发生。


图7

 

 Final Phase: 150°C/168HR

从先前3个测项结果来看,4个SSD尚未出现状态错误(SMART error),但已有两个SSD出现明显延迟,导致性能显著下降。为了测试极端状况并加速老化速度,在最后一项测试环节我们将温度提升至150度,时间拉长7倍,总共168HR,从中观察这4个SSD在极端条件会出现什么样的情况。

从测试结果中(图8)我们发现SSD A在烤完拿到仪器上开始执行全碟读取检查时就出现问题,除无法正常读取外,SSD固件回报也呈现状态错误(SMART error)。而SSD C & SSD D则是在全碟读取检查撑了一段时间后才出现error无法完成读取,随后也出现SSD固件回报状态错误(SMART error)。在最终测试环节中,只有SSD B脱颖而出,能完成全碟读取检查;SSD A、C、D在全碟读取检查过程均发生command error情况,只有SSD B未出现状态错误(SMART error)及无command error的情况产生。


图8

 

测试总结

纵观上述测试,我们可以发现随着长时间与温度的增加,部分SSD在执行全碟检查时效率下降;其中3个SSD也因时间不断的拉长以及温度的提升最终导致因数据保存出现问题而产生读取错误的情况。从低延迟时间级距Rank A来看,随着温度与时间不断增加,造成延迟时间的情况也随之加深,并导致控制器纠错时间增加,响应时间拉长。

值得一提的是,SSD B表现优异,除顺利通过长时间高温测试外,在全碟读取检查延迟时间也都保持在高水平之上,相对其他3个SSD可靠不少。

图9

 

 

结语

经过长时间高温的严峻测试,大部分SSD已无法负荷而出现数据保存问题,然而,还是有SSD能通过严苛的测试环境。虽现今M.2 NVMe SSD会因体积及散热等问题出现资料保存错误情况,但还是可以透过原料控制,以及控制器固件调校技术,让SSD能在严苛的条件中执行存取任务,完整保留数据,维持数据正确性。除了本次的测试案例外,百佳泰也可依照客户需求,针对温度/时间进行客制化、阶梯化设置,为您的产品迅速找出极限点;并从所提供的详细测试报告中协助您改善产品弱点,提升市场竞争力!