我很好奇,理想 端到端+VLM 1000 万 Clips 的模型,在现有硬件(双 orin x )基础上还能不能做更大。
因为理论上,单 orin x 的最大参数量也就 1000 万,合理的配置应该是 900 万。