llama.cpp 本地大模型多一个选择

使用流程：

一、下载llama.cpp windows版本的exe程序

https://github.com/ggml-org/llama.cpp/releases

二、下载GGUF格式的模型文件，跟llama放在同一个目录
https://huggingface.co/models?sort=trending&search=Qwen3.5

三、打开CMD，或者在LLama目录直接运行CMD

#命令行交互方式
llama-cli -m Qwen3.5-0.8B-BF16.gguf

#webui界面交互方式
llama-server -m Qwen3.5-0.8B-BF16.gguf --port 8080


llama-server -m Qwen3.5-35B-A3B-UD-IQ3_S.gguf -c 8192 -ngl 999 --port 8080

#关闭思考模式，直接回答问题
llama-server.exe -m gemma-4-E4B-it-Q5_K_M.gguf --jinja --chat-template-kwargs "{\"enable_thinking\":false}" --host 0.0.0.0 --port 8080

GPU启动，解决重复输出相同内容的问题；

llama-cli -m Qwen2.5-Sex.Q8_0.gguf -ngl 999 --repeat-penalty 1.20

如果还是循环，再加 mirostat：
llama-cli -m Qwen2.5-Sex.Q8_0.gguf -ngl 999 --repeat-penalty 1.20 --mirostat 2 --mirostat-lr 0.1 --mirostat-ent 3.0

如果您喜欢本站，点击这儿不花一分钱捐赠本站

这些信息可能会帮助到你：下载帮助 | 报毒说明 | 进站必看

修改版本安卓软件，加群提示为修改者自留，非本站信息，注意鉴别

gupei 2026年05月17日

参考项目：https://github.com/the-open-agent/openagent 1、我需要用go语言做一个agent，生成一个32位的dll文件给易语言调用，Go DLL 内部集成一个轻量级的 Web 服务器，支持打开网页使用； 2、交互方式，易语言通过dll的命令进行交互，配置文件，存储规划等都由dll文件内部执行，比如保存添加好的模型，其他配置文件等； 3、需要实现能调用工具，比如写脚本，调用脚本，命令行 4、支持对话、多模型切换、会话持久化 5、流式输出、可扩展、功能完善工具类； 1、Agent 循环引擎--ReAct / Function Calling 模式 2、Tool Registry--集中注册/管理工具 3、Web Fetch 工具--调用搜索 API 4、Web Search 工具--HTTP 抓取页面注意事项： 1、避免易语言调用Dll函数的时候出现堆栈错误；请你基于我的这个需求，你自己在完善下，然后重新整理一份新的开发文档，内容不要太多，避免超过上下文的限制，然后是否可以把任务分配给其他的agent来一起完成，这样避免上下文超过的问题

评论于定时任务管理器-极简版单文件、零依赖（只需 Flask + APScheduler）、自带 Web 界面的定时任务管理器
470299041 2025年09月20日

好用！方便快捷，自定义格式很灵活，强烈推荐！

评论于 ScriptGraphicHelper V1.3.2.1 综合图色助手
470299041 2025年09月20日

好用！方便快捷，自定义格式很灵活，强烈推荐！

评论于 ScriptGraphicHelper V1.3.2.1 综合图色助手
470299041 2025年09月20日

好用！自定义格式很方便，模拟器支持也很好，就是Mac的TCP模式有点麻烦。

评论于 ScriptGraphicHelper V1.3.2.1 综合图色助手
470299041 2025年09月20日

好用！自定义格式很方便，模拟器支持也很好，就是Mac的TCP模式有点麻烦。

评论于 ScriptGraphicHelper V1.3.2.1 综合图色助手