五月天视频app下载软件 -五月天app官网无限观看
0731-84728105
15116127200
关于ClickNP的几点讨论
宣布时间 :2016-11-13
     序文 :最近在FAST开源项目群中对2016 SIGCOMM论文ClickNP举行 了讨论,五月天app官网无限观看总结了五个效果 。五月天app官网无限观看与ClickNP的第一作者李博杰举行 了相反 和讨论,在此对博杰表现 谢谢。下面 把关于ClickNP的五个效果 和博杰的回复向各人分享一下,希望各人能有所收获 ,并多多揭晓 见识 。
     效果 一:FPGA在数据中央 交流中有所作为 。随着多核处置赏罚 器才干 提升(特殊 是核数提升),数据中央 端系统 毗邻 网络的第一跳交流机已经逐渐 由外部 TOR交流机迁移 到效劳 器外部 的OVS交流机,一些严重 的网络处置赏罚 成效 也由TOR上完成 转移到OVS上完成 。因为 OVS功用 受限,在网卡上对交流举行 减速 是趋向 。ClickNP研讨 的点十分 关键 ,完成 的种种网络成效 关于 第一跳交流机来说也十分 关键 ,是以 研讨 的意旨 很主要 。而数据中央 网络中协议生长很快,运用 FPGA来完成 对这些协议的处置赏罚 十分 适宜 ,经过 FPGA逻辑的重构可以支持种种新的,甚至是未来 泛起的协议。
     另外,随着OVS/FPGA成为第一跳交流机,是以 TOR交流机已经逐渐 酿成会聚 交流机的角色,对TOR交流机的编程(如运用 p4)意旨 能够 已经不大。是以 小我公家 感受相似 Barefoot的可编程芯片在数据中央 中纷歧定有很好的生久远 景 ,因为 TOR和其他会聚 交流机以及焦点交流机只需求 简朴 和快速 即可。
     博杰回复:我和你们的看法分歧 ,微软的战略也是在端上而非网络里完成 网络成效 。网络就做三层路由,因为 微软跟Intel是同盟嘛。但是 其他公司纷歧定这么想,好比Google跟Cisco是同盟,他们竞赛 想把严重 性放在网络内里 ,这时可编程交流机就有用了。在理想 中,这两种方案我以为 不是统一 的,好比微软数据中央 在端上用FPGA做NFV,又在网络里用可编程交流机(Azure cloud switch,Broadcom trident II)做无邪 的Scheduling和负载平衡 器的Data path offloading。
     效果 二:HLS/OpenCL面向的用户群体应当 是种种运用 开发职员 ,用于面向运用 算法减速 ,(如神经网络算法处置赏罚 减速 ,基因盘算减速 等等)。而这些完全人没有也不需求 掌握底层FPGA结构 和编程的知识。而网络装备 研制是网络装备 制造商专业开发职员 仔细 ,是以 应当 运用 Verilog等寄存 器传输级的硬件形貌 言语 开发,以追求更高的功用 和更低的功耗。论文用HLS/OpenCL来设计险些尺度的,成效 转变 频率很低的网络装备 ,应当 是没有需要 ,理想 中也是没有需求的。
     博杰回复:在传统数据中央 网络中也许网络成效 相对 牢靠 ,但在云数据中央 中网络成效 经常 转变 ,这也是各大云效劳 商运用 虚拟化网络成效 的缘故原由 。好比流表的Match和Action、紧缩 算法、负载平衡 战略、数据包调治战略、RoCE等传输协议,都是不时 演进的。五月天app官网无限观看运用 FPGA也是为了兼具无邪 性和功用 ,处置 CPU做网络成效 的功用 瓶颈。
     您说的用HLS/OpenCL没有需要 ,这一点微软产品 局限 也是认同的。是以 ClickNP如今 只是研讨 局限 在用。产品 局限 有专业的硬件工程师写Verilog,布置 规模那么大,用Verilog写出来的代码资源占用显着 少于HLS天生 的(ClickNP论文中也有竞赛 ),是以 他们选择了Verilog蹊径 。
     效果 三:关于功用 评测的要拥有 些看生疏 ,例如表2中,LPM_tree逻辑最大频率为221.8MHz,最大的功用 也是221.8MPPS,而Hash_TCAM的最大频率和功用 值也是分歧 的,这说明 这不是一个实验 效果 ,而是人为的以为 经过 流水就可以 让每个时钟周期出一个效果 ?这种估量 太失望 了吧。例如一次LPM查表需求 n次访存,必需 完全完成 n级流水线才干 理想 中是很难完成 的。
     博杰回复:ClickNP中一切 的Element都是完全流水的,用HLS的说法是II=1。这也是HLS相比Verilog编程的一种下风 。Verilog写流水线费时艰辛 ,而且不知道 能把几多个组合逻辑运算兼并 到一个时钟周期中。HLS工具则可以凭证 逻辑延迟预算 一个时钟周期能做几多事,自动排好流水,所天生 的Verilog代码不只 不会铺张 硬件资源,而且能在流水深度(延迟)和时钟频率间取得 平衡 ,更无须 说开发效率的分别 了。
     效果 四:作者运用 的BRAM TCAM的完成 ,应当 是把FPGA的逻辑单元用作64*1的寄存 器运用 ,岂非 不是用Verilog等寄存 器传输级言语 编程+相关的综合约束完成 的,也是由HLS综合完成 的吗?HLS这么强,这个有点倾覆 我的熟习 了。
     博杰回复:BRAM TCAM的完成 是Xilinx的一篇论文里提出的,基本 思绪 是把一个较长的婚配 拆分红 多个较短的婚配 ,然后对每个n位的短婚配 预先 盘算出一切 能够 (2的n次方),直接查表。
      ClickNP论文里提到的Element都是用C言语 编写,HLS工具编译出来的。我认可在HLS内里 完成 触及 到Memory的处置赏罚 竞赛 贫穷 ,是以 访存有延迟,HLS工具只会凭证 最差的能够 布置 Pipeline,但是 硬件工程师可以合理布置 这些访存,这使得它们之间不存在抵触 。处置 访存依赖就是编译器的一种优化。虽然尚有 其他类型的手工优化,但没有写进论文,因为 这些优化是针对HLS编译器特征 的,而不具有普适性。
     效果 五:作者在往年 SIGCOMM综述和ClickNP论文撰写体会 中,着重提出的软件Element和硬件Element协同处置赏罚 的效果 在论文中形貌 不空虚 ?是篇幅缘故原由 ?小我公家 感受这个应当 写详细一些,而4.2.1中对访存依赖的形貌 应当 不是很主要 (歉仄,能够 没有明白 作者意图 ),因为 关于 寄存 器传输级的编程来说,这个效果 不存在,只要 运用 HLS才有这个效果 ,而小我公家 感受HLS不是NF完成 应当 运用 的要领(第二点已经指出)。
     博杰回复:在软硬件协同处置赏罚 方面五月天app官网无限观看的例子确实 不太空虚 ,只要 一个PacketCapture和一个L4 Loadbalancer。不过 这一局限 没有太多工具可说,就是把严重 的局限 经过 PCIE channel发到CPU,处置赏罚 之后再经过 PCIE channel发回去。编译器其实不 能自动做软硬件之间的切割。
     PS:接待各人关注FAST民众号,并对五月天app官网无限观看提出的话题揭晓 更多的看法,同时五月天app官网无限观看会向各人推送FAST的最新效果 和相关资料 。
     五月天app官网无限观看树立 了一个FAST项目交流群,接待各人参与 和众多先生 专家一同 讨论网络交流方面的效果 ,下面 是FAST项目交流群的二维码。