llama.app的编译安装以及模型蒸馏-Ubuntu成功篇

操作系统是Ubuntu 22.04.5,搭配AMD 6700 xt 12G的显卡 本来是Debian系统,可是它对rocm的支持没有Ubuntu好,所以只能洗掉Debian,重新安装了Ubuntu 22.04.5,普通用户是ubuntu 我们在这个平台上学习对模型进行蒸馏,首先安装openssh以及rocm 6.2的最新套件,并克隆llama.app: sudo apt -y install openssh-server sudo apt -y install wget ca-certificates gnupg2 curl sudo apt -y install git cmake build-essential pkg-config sudo apt -y install linux-headers-$(uname -r) gcc-12 sudo mkdir -p /etc/apt/keyrings wget -qO- https://repo.radeon.com/rocm/rocm.gpg.key | sudo gpg --dearmor -o /etc/apt/keyrings/rocm.gpg echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/rocm/apt/6.2 jammy main" sudo tee /etc/apt/preferences.d/rocm-repo-radeon-pin >/dev/null <<'EOF' Package: * Pin: origin "repo.radeon.com" Pin-Priority: 1001 EOF sudo apt update sudo apt -y install rocm-hip-sdk rocm-device-libs rocminfo rocm-smi libssl-dev sudo usermod -a -G video,render $USER hipcc --version rocminfo | head git clone https://github.com/ggerganov/llama.cpp cd llama.cpp/ cmake -S . -B build -DCMAKE_BUILD_TYPE=Release cmake --build build -j 然后安装PyTorch,为了环境干净,用uv来维护python的环境: ...

2026年03月16日 · 4 分钟 · 649 字 · 八戒

llamap.app的编译安装-debian半残篇

操作系统是debian 12,搭配AMD 6700 xt 12G的显卡 为了学习模型的蒸馏,以及在模型之外套上壳子来对模型的问答进行修正,那就必须自己编译llama.app了 首先说结果,deiban 12对rocm的支持并不好,不如Ubuntu,用rocm 6.0编译出来的旧版本llama.app不支持多模态,所以是半残篇 apt install -y wget gnupg2 curl software-properties-common linux-headers-$(uname -r) wget -qO - https://repo.radeon.com/rocm/rocm.gpg.key | sudo gpg --dearmor -o /etc/apt/keyrings/rocm.gpg echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/amdgpu/6.0/ubuntu jammy main" | sudo tee /etc/apt/sources.list.d/amdgpu.list echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/rocm/apt/6.0 jammy main" | sudo tee /etc/apt/sources.list.d/rocm.list sudo tee /etc/apt/preferences.d/rocm-pin-600 <<EOF Package: * Pin: origin repo.radeon.com Pin-Priority: 600 EOF sudo apt update sudo apt install -y amdgpu-dkms rocm-hip-libraries rocm-hip-sdk rocm-smi apt install lrzsz unzip ripgrep apt install git apt install -y git cmake build-essential pkg-config apt install -y amdgpu-dkms rocm-hip-sdk # 存疑 apt install -y libvulkan-dev vulkan-tools mesa-vulkan-drivers apt-get install -y rocm-device-libs apt install curl-devel libssl-dev libcurl4-openssl-dev 拉取llama.cpp源代码 ...

2026年03月13日 · 1 分钟 · 161 字 · 八戒

ComfyUI配置z-image-turbo工作流生成图片

书接上文,操作系统是debian 12,搭配AMD 6700 xt 12G的显卡 驱动安装看这篇:Claude Code如何使用ollama提供的qwen3:2.5B大模型来私网使用 然后我们来安装 # 翻墙才可以clone项目 export https_proxy=http://192.168.1.1:1080 git clone https://github.com/Comfy-Org/ComfyUI # 安装uv curl -LsSf https://astral.sh/uv/install.sh | sh export PATH="$HOME/.local/bin:$PATH" # 安装python 3.12,比较保险 uv python list uv python install 3.12 cd ComfyUI/ # 初始化 uv init uv venv --python 3.12 . .venv/bin/activate # 安装 torch ,要选择合适的torch和rocm 6.0 uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.0 uv pip list # 安装附加 uv pip install -r requirements.txt ComfyUI就装好了 ...

2026年03月05日 · 1 分钟 · 168 字 · 八戒

自荐一个Kubernetes的日志采集软件

自荐一个 Kubernetes 的日志采集软件:envlog https://github.com/zhangrr/envlog 软件最大优势 采集容器内自定义文件 阿里的SLS有个最大的优势,可以在Deployment中宣告pod容器内的文件路径,然后就会自动采集。 Docker引擎可以很容易搜索pod路径,Containerd做起来比较费劲。 但这也是最吸引人的特性,如果只采集stdout,那随便什么软件loki、filebeat都可以,就没什么吸引力。 这个困扰了我很多年,终于在AI的加持下实现了: 例如我们要采集 Pod 内的文件 /tmp/logtest.log: - env: - name: envlog_ngtest value: "/tmp/logtest.log" ​ 该模式会尝试将容器内路径映射到宿主机路径(优先使用 volume mount,其次使用容器 overlay upperdir),并生成对应的 Filebeat paths。 然后发往ES、Kafka比较好,本软件优化了ES的字段,去掉了多余的字段,也便于阅读。 这也是本软件最大的特色! 然后我们去ES的Kibana面板,Management –> Stack Management 建立Index Patterns 然后去 Analytics –> Discover 就可以看到日志的详细内容了: 字段做了优化,不需要的字段统统都舍弃了,保留了必要的字段和日志的详细内容。

2026年02月14日 · 1 分钟 · 43 字 · 八戒

大语言模型TranslateGemma的实际应用

看到一个非常有趣的例子,分享一下,TranslateGemma以及其应用: 首先,TranslateGemma是什么? TranslateGemma 是一套以 Gemma 3 为基础打造的开放式翻译模型,提供 4B(4 亿)、12B(12 亿)、27B(27 亿)三种参数规模,对应不同的使用场景。支持500组语言,可以识图,识别PDF中的文字。 TranslateGemma 的最大优势在于“可根据设备规模选择模型”,针对不同的计算环境提供了多种版本: 4B(40 亿)版本:已针对移动设备与边缘设备进行优化,适合进行离线翻译或内置于 App 中实时使用。 12B(120 亿)版本:可在笔记本电脑或本地环境顺畅运行,将研究级别的翻译能力带入本机。 27B(270 亿)版本:主打追求最高保真度,适合部署于云端 GPU 或 TPU 环境,例如单颗 NVIDIA H100 或 Google TPU。 嘿嘿,我们可以直接在Huggingface下载模型文件,然后在ollama里用 https://huggingface.co/collections/google/translategemma https://www.kaggle.com/models/google/translategemma/ 那更近一步,有个软件,叫做GPT旅行翻译神奇 安装之后,点击设定,可以启用离线模式,就下载的是TranslateGemma 4B的模型 启动离线模式,没有网的状态下就可以进行翻译: 我的手机有点逊色,iphone 12 Pro MAX有点费劲,主流的iphone 16应该很流畅 这也算是大模型的立即应用了。

2026年02月05日 · 1 分钟 · 43 字 · 八戒

Postgres的恢复之三

那版上的Postgres恢复已经有两篇文章了,这是第三篇,数据大于天啊 原因是看到了一篇文章: https://medium.com/engineering-playbook/i-deleted-production-database-on-friday-5-pm-heres-how-i-didn-t-get-fired-e5e53a133f9b 我们来复盘整个过程,同事提醒自己也要同样清醒和多留备份 一、建立**Point-in-Time Recovery (PITR)**归档 # ps axjf的结果中,看到配置文件是 /etc/postgresql/13/main/postgresql.conf # 那就修改这个配置文件 # 修改以下2行 # 启用归档 archive_mode = on # WAL 日志归档路径 archive_command = 'cp %p /path_to_archive_directory/%f' # 然后重启服务生效 systemctl restart postgresql 二、建立每6小时的full backup # Cron job running every 6 hours pg_dump production_db | gzip > backup_$(date +%Y%m%d_%H%M%S).sql.gz 三、恢复full backup # Create new database createdb production_db # Restore from backup gunzip < backup_20240126_160000.sql.gz | psql production_db 四、恢复WAL log归档备份 # Restore WAL logs from 4 PM to 5 PM recovery_target_time = '2024-01-26 17:00:00'

2026年02月05日 · 1 分钟 · 83 字 · 八戒

Livekit的安装

Livekit是个语音的套件,安装确实比较困难,步骤如下: 准备好Debian 12,安装好Docker,因为Livekit安装脚本其实是有问题的 apt update apt install -y curl gpg wget -O - https://download.docker.com/linux/debian/gpg | gpg --dearmor -o /etc/apt/keyrings/docker.gpg echo "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/debian \ $(lsb_release -cs) stable" | tee /etc/apt/sources.list.d/docker.list > /dev/null apt update; apt install -y docker-ce 然后直接generate安装脚本 cd /root docker run --rm -it -v$PWD:/output livekit/generate 然后开始提问回答环节 LiveKit Server only 主域名: turn的辅助域名: 用什么证书,当然ACME 版本,选最新的latest 是否用外部的redis,当然no,选内置的 然后生成脚本 会给一段提示 ...

2026年02月04日 · 1 分钟 · 176 字 · 八戒

Claude Code如何使用ollama提供的qwen3:2.5B大模型来私网使用

Cluade code、Codex、Gemini三架马车是齐头并进的势头,那将来必定是Farm农场和Token战争的年代。 那我们必须准备好,自己在局域网部署大模型,不依赖于任何的提供厂家。 本篇就是从光杆的debian 12开始,搭配AMD 6700 xt 12G的显卡,从头搭建一个大模型服务器,供局域网的同事们使用 一、Debian安装 光杆debian iso下载 https://gemmei.ftp.acc.umu.se/cdimage/archive/12.0.0/amd64/iso-cd/debian-12.0.0-amd64-netinst.iso 用rufus刻录到U盘,然后安装 root用户,然后建立一个普通用户debian 二、Debian准备驱动 # root 用户 apt update && sudo apt upgrade -y apt install sudo # debian用户 sudo apt install -y wget gnupg2 curl software-properties-common linux-headers-$(uname -r) wget -qO - https://repo.radeon.com/rocm/rocm.gpg.key | sudo gpg --dearmor -o /etc/apt/keyrings/rocm.gpg echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/amdgpu/6.0/ubuntu jammy main" | sudo tee /etc/apt/sources.list.d/amdgpu.list echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/rocm/apt/6.0 jammy main" | sudo tee /etc/apt/sources.list.d/rocm.list sudo tee /etc/apt/preferences.d/rocm-pin-600 <<EOF Package: * Pin: origin repo.radeon.com Pin-Priority: 600 EOF sudo apt update sudo apt install -y amdgpu-dkms rocm-hip-libraries rocm-hip-sdk sudo usermod -aG video,render $USER sudo reboot 然后就安装好了显卡驱动,解释一下,必须让新repo的优先级提高,才能安装!确认一下: ...

2026年02月03日 · 2 分钟 · 361 字 · 八戒

Claude Code如何使用openrouter提供的大模型来节省费用

Cluade code、Codex、Gemini三架马车是齐头并进的势头,那将来必定是Farm农场和Token战争的年代。 那节省成本的方法是尽量使用合适的模型来做合适的事情 那如果有openrouter的API KEY,如何接入Claude code进行使用呢? openrouter基本提供了500个AI models,从中选择合适的模型就可以极大的降低费用 那Claude Code使用的三个模型 Opus – 复杂推理任务(适合架构设计、解决棘手 Bug) Sonnet – 日常标准任务(适合绝大多数编程/写代码工作) Haiku – 快速、低成本任务(适合探索性工作、查阅文档) 我们分别用 Gemini Flash、DeepSeek Coder来替代,最后用Sonnet来补全剩余部分,就省钱多了 方法如下: 一、gen出OpenRoute的API Key 访问 OpenRouter 注册登录 (有 $1 的免费额度) 访问 API Keys 点击 “Create Key” 把key复制下来 (类似 sk-or-v1-...) 二、安装配置薅Claude Code 这个也不多说了 三、配置连接Claude Code的连接 主要是几个变量: export OPENROUTER_API_KEY="sk-or-v1-your-actual-key-here" export ANTHROPIC_BASE_URL="https://openrouter.ai/api" export ANTHROPIC_AUTH_TOKEN="$OPENROUTER_API_KEY" export ANTHROPIC_API_KEY="" 验证一下,启动claude,输入 /status 看到就ok了 四、Cluaude工具链调用的模型选择 Claude Code需要模型能支持"tool use"(也叫做函数调用),这些允许Claude code做如下事情 *Read and edit files* *Run terminal commands* *Search your codebase* *Execute git commands* 支持工具链调用的模型: ...

2026年02月03日 · 2 分钟 · 214 字 · 八戒

黄大善人免费的的nvidia glm和minimax模型应用于Claude Code

黄大善人的Nvidia里面有很多免费的模型,包括zai/glm4.7和minimaxai/minimax-m2.1 那没有订阅的同学们可以拿来直接用到Cluade code中 方法如下: 一、从官网进行获取api-key 起手先注册账户拿Key 地址:https://build.nvidia.com/explore/discover 或者 二、如何使用 然后主要是我不用ccr,CLIProxyAPI也开全局代理了,也无法用,所以干脆搓个好了 用ccr和CLIProxyAPI就可以直接用。 源代码: https://github.com/zhangrr/claude-nvidia-proxy 配置文件: { "nvidia_url": "https://integrate.api.nvidia.com/v1/chat/completions", "nvidia_key": "nvapi-api-key" } 直接运行程序,会监听本地端口3001 glm 4.7的配法: export ANTHROPIC_BASE_URL=http://localhost:3001 export ANTHROPIC_AUTH_TOKEN=nvapi-api-key export ANTHROPIC_DEFAULT_HAIKU_MODEL=z-ai/glm4.7 export ANTHROPIC_DEFAULT_SONNET_MODEL=z-ai/glm4.7 export ANTHROPIC_DEFAULT_OPUS_MODEL=z-ai/glm4.7 claude minimax 2.1 的配法: export ANTHROPIC_BASE_URL=http://localhost:3001 export ANTHROPIC_AUTH_TOKEN=nvapi-api-key export ANTHROPIC_DEFAULT_HAIKU_MODEL=minimaxai/minimax-m2.1 export ANTHROPIC_DEFAULT_SONNET_MODEL=minimaxai/minimax-m2.1 export ANTHROPIC_DEFAULT_OPUS_MODEL=minimaxai/minimax-m2.1 claude

2026年01月20日 · 1 分钟 · 48 字 · 八戒