
Ollama和llama.cpp什么关系,或者说有关系吗? - 知乎
看上去像是Ollama是对llama.cpp的封装和添加了很多内容,Ollama底层是llama.cpp吗?
草泥马是alpaca还是llama,两者的区别主要是什么? - 知乎
维基百科对于这两种马的特点描述都是长腿 长脖子 deep chest。stock脸更宽 并且聪明 然而侧面静态图鬼知道脸多宽 智商如何(坚强的微笑)。温血马拥有共同的几个特征:长腿 长脖子 deep …
llama.cpp里面的Q8_0,Q6_K_M,Q4_K_M量化原理是什么? - 知乎
2. K系列量化方法 就是有 _K 后缀的那些,这个方法最大的特点是 层次化,但我不知道 K 代表的是什么。 这是Llama.cpp中为了进一步减少内存占用而引入的改进量化方法。 在这种方法中,不 …
为什么ollama运行不调用gpu? - 知乎
为什么要用OLLAMA?貌似启动ROCM后,它的速度比LM Studio的vulkan模式要快一些。同样用qwq 32b: lm studio:输出速度大概是1~2之间; OLLAMA:输出速度大概是3~4之间。 如何 …
为什么都在用ollama而lm studio却更少人使用? - 知乎
这两种我都用过,也不算重度用户。我个人的体会是,LM STUDIO更适合硬件强大,且希望得到最佳效果的用户。比如说你有一块24GB显存的N卡,那么就可以从HG上自由选择并匹配到显 …
LM-studio模型加载失败? - 知乎
如题: 选择deepseek-8b-llama-gguf gpu选择32层加载模型时报错: Error loading model. (Exit co… 显示全部
大模型推理框架,SGLang和vLLM有哪些区别? - 知乎
文章中的TODO有待补充,第一次认真写知乎,有任何问题欢迎大家在评论区指出 官方vllm和sglang均已支持deepseek最新系列模型 (V3,R),对于已经支持vllm和sglang的特定硬件( …
Deekseek r1本地部署,14b和32b最小需要多大显存吗? - 知乎
如题,本地部署的话,14b的用16g显存显卡能用gpu跑吗,32b的用32g显存显卡能用gpu跑吗?我看到过有篇文章…
如何看待微软提出的BitNet b1.58? - 知乎
首先,和大家熟悉的大模型量化不同,这篇工作,其实是想把英伟达的FP8训练路线推到极致,将线性层中的matmul转换为加减操作,从而在硬件设计上带来革新。 跟前作BitNet相比,这篇 …
大模型参数量和占的显存怎么换算? - 知乎
Llama 7B或者baichuan7b跑起来需要多少显存?能根据参数量估计出来么?