背景说明: NVMe over fabric是存储协议应用的发展方向,业界存储主流厂商均已经发布支持的产品,在测试验证过程中发现一些可靠性问题: 基于RHEL/CENT OS 8.0发现如下一些问题:
1、 反复闪断端口,主机出现死锁,导致nvme controller卡住,无法恢复,需要重启才能恢复;
2、 反复重启存储端服务,主机端crash;
3、 通过命令行进行delete controller时导致crash(在nvme over roce连接已经断开时),进行reset controller时导致死锁,controller不能恢复需要重启才能恢复。(在nvme over roce连接已经断开时)
4、 Nvme对于错误码处理考虑不是很完善,在多个不同主机同时对一个存储大压力情况下,存储端需要回复类似busy错误码,在有多路径(DM-Multipath)的情况下会直接向上返回错误码,由于多条路径均返回错误码,导致业务中断或IO归零。
PS:多路径是存储应用必配的。
5、 Nvme 原生多路径对于路径识别采用的机制和传统的多路径软件识别路径方式不同,对于双活支持不友好。PS:双活是存储高可靠应用的典型应用场景。
PS:1、2、3中的问题有多个,其中已经确定部分问题开源社区最新版本已经解决,部分问题未解决,还有部分问题正在分析中; RHEL/CENT OS 8.0内核版本是4.18,open euler最新发布版本的内核版本是4.19,从初步的分析来看,以上问题在open euler均存在。
诉求:
1、 已经合入社区最新版本的问题,能够快速合入open euler下一个发布版本;
2、 对于社区未解决的问题,能够快速推动合入社区,并合入open euler下一个发布版本; 3、针对上述第4、5项,nvme驱动如何优化,并推动合入社区;
Open euler对nvme驱动可靠性优化合入的计划是什么样的,如何深度合作快速推动?非常感谢!