Llama - Search

About 4,220,000 results

Open links in new tab

Any time

zhihu.com
https://www.zhihu.com › question
Ollama和llama.cpp什么关系，或者说有关系吗？ - 知乎
看上去像是Ollama是对llama.cpp的封装和添加了很多内容，Ollama底层是llama.cpp吗？
zhihu.com
https://www.zhihu.com › question
草泥马是alpaca还是llama，两者的区别主要是什么？ - 知乎
维基百科对于这两种马的特点描述都是长腿长脖子 deep chest。stock脸更宽并且聪明然而侧面静态图鬼知道脸多宽智商如何（坚强的微笑）。温血马拥有共同的几个特征：长腿长脖子 deep …
zhihu.com
https://www.zhihu.com › question
llama.cpp里面的Q8_0,Q6_K_M,Q4_K_M量化原理是什么？ - 知乎
2. K系列量化方法就是有 _K 后缀的那些，这个方法最大的特点是层次化，但我不知道 K 代表的是什么。这是Llama.cpp中为了进一步减少内存占用而引入的改进量化方法。在这种方法中，不 …
zhihu.com
https://www.zhihu.com › question
为什么ollama运行不调用gpu？ - 知乎
为什么要用OLLAMA？貌似启动ROCM后，它的速度比LM Studio的vulkan模式要快一些。同样用qwq 32b： lm studio：输出速度大概是1~2之间； OLLAMA：输出速度大概是3~4之间。如何 …
zhihu.com
https://www.zhihu.com › question
为什么都在用ollama而lm studio却更少人使用? - 知乎
这两种我都用过，也不算重度用户。我个人的体会是，LM STUDIO更适合硬件强大，且希望得到最佳效果的用户。比如说你有一块24GB显存的N卡，那么就可以从HG上自由选择并匹配到显 …
zhihu.com
https://www.zhihu.com › question
LM-studio模型加载失败？ - 知乎
如题：选择deepseek-8b-llama-gguf gpu选择32层加载模型时报错： Error loading model. (Exit co… 显示全部
zhihu.com
https://www.zhihu.com › question
大模型推理框架，SGLang和vLLM有哪些区别？ - 知乎
文章中的TODO有待补充，第一次认真写知乎，有任何问题欢迎大家在评论区指出官方vllm和sglang均已支持deepseek最新系列模型 (V3,R)，对于已经支持vllm和sglang的特定硬件（ …
zhihu.com
https://www.zhihu.com › question
Deekseek r1本地部署，14b和32b最小需要多大显存吗？ - 知乎
如题，本地部署的话，14b的用16g显存显卡能用gpu跑吗，32b的用32g显存显卡能用gpu跑吗？我看到过有篇文章…
zhihu.com
https://www.zhihu.com › question
如何看待微软提出的BitNet b1.58？ - 知乎
首先，和大家熟悉的大模型量化不同，这篇工作，其实是想把英伟达的FP8训练路线推到极致，将线性层中的matmul转换为加减操作，从而在硬件设计上带来革新。跟前作BitNet相比，这篇 …
zhihu.com
https://www.zhihu.com › question
大模型参数量和占的显存怎么换算？ - 知乎
Llama 7B或者baichuan7b跑起来需要多少显存？能根据参数量估计出来么？

Pagination
- 1
- 2
- 3
- 4
- Next