拓扑

光纤
光纤
光纤
未连接
未连接
Server
IP addr: 1.1.5.0 mlx5_0
IP addr: 1.1.5.1 mlx5_1
CMD: ib_write_bw
Client
IP addr: 1.1.4.0 mlx5_2
IP addr: 1.1.4.1 mlx5_3
命令: ib_write_bw 1.1.1.1
mlx5_0
mlx5_2
mlx5_1
mlx5_3
VENDOR     ETH        BDF                  IBdev      IPaddr          Company                       
0x15b3     enp5s0f0   mlx5_0 (Up)          05:00.0    1.1.5.0/8       Mellanox Family [ConnectX-5]  
0x15b3     enp5s0f1   mlx5_1 (Up)          05:00.1    1.1.5.1/8       Mellanox Family [ConnectX-5]  
0x15b3     enp6s0f0   mlx5_2 (Up)          06:00.0    1.1.4.0/8       Mellanox Family [ConnectX-4 Lx] 
0x15b3     enp6s0f1   mlx5_3 (Up)          06:00.1    1.1.4.1/8       Mellanox Family [ConnectX-4 Lx] 

现象

  • 命令行报错:

    Failed to modify QP 139 to RTR
    Unable to Connect the HCA’s through the link

  • 驱动报错:

    mlx5_core 0000:42:00.0 enp66s0f0: mlx5e_ethtool_get_link_ksettings: query port ptys failed: -67

    细节:
    在这里插入图片描述
    在这里插入图片描述

根因

QP可以处于不同的状态,其中RTR(Ready to Receive)是QP状态之一,表示QP已经准备好接收消息。
两个IB接口并未链接,但是两个IB接口的服务器是能够互通的时候会出现该问题

解决办法

更改拓扑,让测试的两个port在IB上能够通。比如直连或者交换机处理。

Logo

一站式 AI 云服务平台

更多推荐