llama.app的编译安装以及模型蒸馏-Ubuntu+nvidia 3060最终成功篇

真是路途多揣,路漫漫其修远兮…. 上次失败,这次换了正宗得Nvidia 3060显卡,显存8G来实验 操作系统是Ubuntu 22.04.5,搭配Nvidia 8G的显卡,用户是ubuntu,尽量用普通用户操作 先上去看: nvidia-smi root@ollama:~# nvidia-smi Command 'nvidia-smi' not found, but can be installed with: apt install nvidia-utils-390 # version 390.157-0ubuntu0.22.04.2, or apt install nvidia-utils-418-server # version 418.226.00-0ubuntu5~0.22.04.1 apt install nvidia-utils-450-server # version 450.248.02-0ubuntu0.22.04.1 apt install nvidia-utils-470 # version 470.256.02-0ubuntu0.22.04.1 apt install nvidia-utils-470-server # version 470.256.02-0ubuntu0.22.04.1 apt install nvidia-utils-535 # version 535.288.01-0ubuntu0.22.04.1 apt install nvidia-utils-535-server # version 535.288.01-0ubuntu0.22.04.1 apt install nvidia-utils-550-server # version 550.163.01-0ubuntu0.22.04.1 apt install nvidia-utils-570 # version 570.211.01-0ubuntu0.22.04.1 apt install nvidia-utils-570-server # version 570.211.01-0ubuntu0.22.04.1 apt install nvidia-utils-580 # version 580.126.09-0ubuntu0.22.04.1 apt install nvidia-utils-580-server # version 580.126.09-0ubuntu0.22.04.1 apt install nvidia-utils-590 # version 590.48.01-0ubuntu0.22.04.3 apt install nvidia-utils-590-server # version 590.48.01-0ubuntu0.22.04.3 apt install nvidia-utils-545 # version 545.29.06-0ubuntu0.22.04.2 apt install nvidia-utils-565-server # version 565.57.01-0ubuntu0.22.04.4 apt install nvidia-utils-510 # version 510.60.02-0ubuntu1 apt install nvidia-utils-510-server # version 510.47.03-0ubuntu3 最高是590,那就装590的驱动 ...

2026年04月10日 · 5 分钟 · 853 字 · 八戒

Gemma4破限版的安装

谷歌推出了Gemma4,那有好事者船载以入,直接破了它的道德感,可以逆向,破解,我们来试试吧 运行环境: Ubuntu 22.04,Nvidia 3060 8G显卡 # 首先下载模型 uv pip install -U "huggingface_hub" uv tool run hf auth login --token hf_xxxxxxxx # 破限模型的地址:https://huggingface.co/HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive # 本来应该运行Q5_K_M 或者Q5_K_P,但是还要跑多模态,降一档 # 跑Q4_K_P 或者Q4_K_M加上多模态文件 # 下载Q4_KM uv tool run hf download HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf /home/ubuntu/.cache/huggingface/hub/models--HauhauCS--Gemma-4-E4B-Uncensored-HauhauCS-Aggressive/snapshots/45b6a334b4bcd1d7f37179df58b3b1d66a184e5d/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf # 下载多模态文件 uv tool run hf download HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive mmproj-Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-f16.gguf /home/ubuntu/.cache/huggingface/hub/models--HauhauCS--Gemma-4-E4B-Uncensored-HauhauCS-Aggressive/snapshots/45b6a334b4bcd1d7f37179df58b3b1d66a184e5d/mmproj-Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-f16.gguf 然后需要编译llama.app,否则认不出gemma4这个最新的模型: apt install nvidia-driver-590 apt install nvidia-cuda-toolkit apt install gcc-10 g++-10 git clone https://github.com/ggerganov/llama.cpp cd llama.app # apt 安装的590其实版本比较旧,但是ubuntu 22.04自带的gcc11版本高了,导致cuda的编译认不出来高版本的文件 # 所以必须用低版本的gcc来编译旧版本的cuda驱动 cmake -S . -B build -DCMAKE_BUILD_TYPE=Release \ -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=86 \ -DCMAKE_CUDA_HOST_COMPILER=/usr/bin/gcc-10 cmake --build build --config Release -j 8 cd build/bin 编译好后运行测试一下: ...

2026年04月09日 · 1 分钟 · 211 字 · 八戒

Linux环境下uv的安装和适用

最近一直在搞chatgpt普号的注册机,L站上五花八门,各式各样,多数是用python写的 一个程序一个环境,要是污染整体的环境就不好了 最好是一个程序一个独立环境,那就用uv来管理python环境好了,就像用nvm来管理nodejs环境一样 安装: curl -LsSf https://astral.sh/uv/install.sh | sh 先看看说明: uv 用法: # 比较稳定的版本 uv python install 3.12 # 建立虚拟环境,固定版本 uv venv --python 3.12 # 激活虚拟环境,多次激活只适用最后一个 . .venv/bin/activate # pip安装 uv pip install # 运行python程序的2种办法 uv run prog.py python prog.py # 一些应用提供了自己的程序,比如huggingface,hf,这就叫做tool uv pip install -U "huggingface_hub" uv tool run hf uv tool run hf auth login --token hf_xxxxxxxx # 详细说明:https://huggingface.co/docs/huggingface_hub/en/guides/cli # 下载单个模型文件 uv tool run hf download HiDream-ai/HiDream-I1-Full text_encoder/model.safetensors # 下载整个目录 uv tool run hf download HuggingFaceH4/zephyr-7b-beta # 直接运行程序,不安装!!!! uvx uvx hf uvx pycowsay hello from uv

2026年04月09日 · 1 分钟 · 88 字 · 八戒

llama.app的编译安装以及模型蒸馏-Ubuntu成功烧毁gpu篇

操作系统是Ubuntu 22.04.5,搭配AMD 6700 xt 12G的显卡 本来是Debian系统,可是它对rocm的支持没有Ubuntu好,所以只能洗掉Debian,重新安装了Ubuntu 22.04.5,普通用户是ubuntu 我们在这个平台上学习对模型进行蒸馏,首先安装openssh以及rocm 6.2的最新套件,并克隆llama.app: sudo apt -y install openssh-server sudo apt -y install wget ca-certificates gnupg2 curl sudo apt -y install git cmake build-essential pkg-config sudo apt -y install linux-headers-$(uname -r) gcc-12 sudo mkdir -p /etc/apt/keyrings wget -qO- https://repo.radeon.com/rocm/rocm.gpg.key | sudo gpg --dearmor -o /etc/apt/keyrings/rocm.gpg echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/rocm/apt/6.2 jammy main" sudo tee /etc/apt/preferences.d/rocm-repo-radeon-pin >/dev/null <<'EOF' Package: * Pin: origin "repo.radeon.com" Pin-Priority: 1001 EOF sudo apt update sudo apt -y install rocm-hip-sdk rocm-device-libs rocminfo rocm-smi libssl-dev sudo usermod -a -G video,render $USER hipcc --version rocminfo | head git clone https://github.com/ggerganov/llama.cpp cd llama.cpp/ cmake -S . -B build -DCMAKE_BUILD_TYPE=Release cmake --build build -j 然后安装PyTorch,为了环境干净,用uv来维护python的环境: ...

2026年03月16日 · 4 分钟 · 651 字 · 八戒

llamap.app的编译安装-debian半残篇

操作系统是debian 12,搭配AMD 6700 xt 12G的显卡 为了学习模型的蒸馏,以及在模型之外套上壳子来对模型的问答进行修正,那就必须自己编译llama.app了 首先说结果,deiban 12对rocm的支持并不好,不如Ubuntu,用rocm 6.0编译出来的旧版本llama.app不支持多模态,所以是半残篇 apt install -y wget gnupg2 curl software-properties-common linux-headers-$(uname -r) wget -qO - https://repo.radeon.com/rocm/rocm.gpg.key | sudo gpg --dearmor -o /etc/apt/keyrings/rocm.gpg echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/amdgpu/6.0/ubuntu jammy main" | sudo tee /etc/apt/sources.list.d/amdgpu.list echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/rocm/apt/6.0 jammy main" | sudo tee /etc/apt/sources.list.d/rocm.list sudo tee /etc/apt/preferences.d/rocm-pin-600 <<EOF Package: * Pin: origin repo.radeon.com Pin-Priority: 600 EOF sudo apt update sudo apt install -y amdgpu-dkms rocm-hip-libraries rocm-hip-sdk rocm-smi apt install lrzsz unzip ripgrep apt install git apt install -y git cmake build-essential pkg-config apt install -y amdgpu-dkms rocm-hip-sdk # 存疑 apt install -y libvulkan-dev vulkan-tools mesa-vulkan-drivers apt-get install -y rocm-device-libs apt install curl-devel libssl-dev libcurl4-openssl-dev 拉取llama.cpp源代码 ...

2026年03月13日 · 1 分钟 · 161 字 · 八戒

ComfyUI配置z-image-turbo工作流生成图片

书接上文,操作系统是debian 12,搭配AMD 6700 xt 12G的显卡 驱动安装看这篇:Claude Code如何使用ollama提供的qwen3:2.5B大模型来私网使用 然后我们来安装 # 翻墙才可以clone项目 export https_proxy=http://192.168.1.1:1080 git clone https://github.com/Comfy-Org/ComfyUI # 安装uv curl -LsSf https://astral.sh/uv/install.sh | sh export PATH="$HOME/.local/bin:$PATH" # 安装python 3.12,比较保险 uv python list uv python install 3.12 cd ComfyUI/ # 初始化 uv init uv venv --python 3.12 . .venv/bin/activate # 安装 torch ,要选择合适的torch和rocm 6.0 uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.0 uv pip list # 安装附加 uv pip install -r requirements.txt ComfyUI就装好了 ...

2026年03月05日 · 1 分钟 · 168 字 · 八戒

自荐一个Kubernetes的日志采集软件

自荐一个 Kubernetes 的日志采集软件:envlog https://github.com/zhangrr/envlog 软件最大优势 采集容器内自定义文件 阿里的SLS有个最大的优势,可以在Deployment中宣告pod容器内的文件路径,然后就会自动采集。 Docker引擎可以很容易搜索pod路径,Containerd做起来比较费劲。 但这也是最吸引人的特性,如果只采集stdout,那随便什么软件loki、filebeat都可以,就没什么吸引力。 这个困扰了我很多年,终于在AI的加持下实现了: 例如我们要采集 Pod 内的文件 /tmp/logtest.log: - env: - name: envlog_ngtest value: "/tmp/logtest.log" ​ 该模式会尝试将容器内路径映射到宿主机路径(优先使用 volume mount,其次使用容器 overlay upperdir),并生成对应的 Filebeat paths。 然后发往ES、Kafka比较好,本软件优化了ES的字段,去掉了多余的字段,也便于阅读。 这也是本软件最大的特色! 然后我们去ES的Kibana面板,Management –> Stack Management 建立Index Patterns 然后去 Analytics –> Discover 就可以看到日志的详细内容了: 字段做了优化,不需要的字段统统都舍弃了,保留了必要的字段和日志的详细内容。

2026年02月14日 · 1 分钟 · 43 字 · 八戒

大语言模型TranslateGemma的实际应用

看到一个非常有趣的例子,分享一下,TranslateGemma以及其应用: 首先,TranslateGemma是什么? TranslateGemma 是一套以 Gemma 3 为基础打造的开放式翻译模型,提供 4B(4 亿)、12B(12 亿)、27B(27 亿)三种参数规模,对应不同的使用场景。支持500组语言,可以识图,识别PDF中的文字。 TranslateGemma 的最大优势在于“可根据设备规模选择模型”,针对不同的计算环境提供了多种版本: 4B(40 亿)版本:已针对移动设备与边缘设备进行优化,适合进行离线翻译或内置于 App 中实时使用。 12B(120 亿)版本:可在笔记本电脑或本地环境顺畅运行,将研究级别的翻译能力带入本机。 27B(270 亿)版本:主打追求最高保真度,适合部署于云端 GPU 或 TPU 环境,例如单颗 NVIDIA H100 或 Google TPU。 嘿嘿,我们可以直接在Huggingface下载模型文件,然后在ollama里用 https://huggingface.co/collections/google/translategemma https://www.kaggle.com/models/google/translategemma/ 那更近一步,有个软件,叫做GPT旅行翻译神奇 安装之后,点击设定,可以启用离线模式,就下载的是TranslateGemma 4B的模型 启动离线模式,没有网的状态下就可以进行翻译: 我的手机有点逊色,iphone 12 Pro MAX有点费劲,主流的iphone 16应该很流畅 这也算是大模型的立即应用了。

2026年02月05日 · 1 分钟 · 43 字 · 八戒

Postgres的恢复之三

那版上的Postgres恢复已经有两篇文章了,这是第三篇,数据大于天啊 原因是看到了一篇文章: https://medium.com/engineering-playbook/i-deleted-production-database-on-friday-5-pm-heres-how-i-didn-t-get-fired-e5e53a133f9b 我们来复盘整个过程,同事提醒自己也要同样清醒和多留备份 一、建立**Point-in-Time Recovery (PITR)**归档 # ps axjf的结果中,看到配置文件是 /etc/postgresql/13/main/postgresql.conf # 那就修改这个配置文件 # 修改以下2行 # 启用归档 archive_mode = on # WAL 日志归档路径 archive_command = 'cp %p /path_to_archive_directory/%f' # 然后重启服务生效 systemctl restart postgresql 二、建立每6小时的full backup # Cron job running every 6 hours pg_dump production_db | gzip > backup_$(date +%Y%m%d_%H%M%S).sql.gz 三、恢复full backup # Create new database createdb production_db # Restore from backup gunzip < backup_20240126_160000.sql.gz | psql production_db 四、恢复WAL log归档备份 # Restore WAL logs from 4 PM to 5 PM recovery_target_time = '2024-01-26 17:00:00'

2026年02月05日 · 1 分钟 · 83 字 · 八戒

Livekit的安装

Livekit是个语音的套件,安装确实比较困难,步骤如下: 准备好Debian 12,安装好Docker,因为Livekit安装脚本其实是有问题的 apt update apt install -y curl gpg wget -O - https://download.docker.com/linux/debian/gpg | gpg --dearmor -o /etc/apt/keyrings/docker.gpg echo "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/debian \ $(lsb_release -cs) stable" | tee /etc/apt/sources.list.d/docker.list > /dev/null apt update; apt install -y docker-ce 然后直接generate安装脚本 cd /root docker run --rm -it -v$PWD:/output livekit/generate 然后开始提问回答环节 LiveKit Server only 主域名: turn的辅助域名: 用什么证书,当然ACME 版本,选最新的latest 是否用外部的redis,当然no,选内置的 然后生成脚本 会给一段提示 ...

2026年02月04日 · 1 分钟 · 176 字 · 八戒