- MiTS与PoTS:面向连续值时间序列的极简Transformer架构
- 信息检索系统评估指标的层级分析:从单点精确度到整体性能度量
- PyTorch PINN实战:用深度学习求解微分方程
- SigLIP 2:多语言语义理解、定位和密集特征的视觉语言编码器
- FANformer:融合傅里叶分析网络的大语言模型基础架构
- S3FT选择性自监督微调:通过智能选择训练样本提升大模型整体表现
- 大语言模型中的归一化技术:LayerNorm与RMSNorm的深入研究
- NeoBERT:具备4096 tokens上下文窗口,参数更少但性能翻倍
- Chain of Draft: 借鉴人类草稿思维让大型语言模型更快地思考
- Visual-RFT:基于强化学习的视觉语言模型微调技术研究
- 深入解析图神经网络注意力机制:数学原理与可视化实现
- 深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
- 机器学习特征筛选:向后淘汰法原理与Python实现
- 趋势还是噪声?ADF与KPSS检验结果矛盾时的高级时间序列处理方法
- PyTorch内存优化的10种策略总结:在有限资源环境下高效训练模型