所有文章 | 八戒的技术博客

llama.app的编译安装以及模型蒸馏-Ubuntu+nvidia 3060最终成功篇

真是路途多揣，路漫漫其修远兮…. 上次失败，这次换了正宗得Nvidia 3060显卡，显存8G来实验操作系统是Ubuntu 22.04.5，搭配Nvidia 8G的显卡，用户是ubuntu，尽量用普通用户操作先上去看： nvidia-smi root@ollama:~# nvidia-smi Command 'nvidia-smi' not found, but can be installed with: apt install nvidia-utils-390 # version 390.157-0ubuntu0.22.04.2, or apt install nvidia-utils-418-server # version 418.226.00-0ubuntu5~0.22.04.1 apt install nvidia-utils-450-server # version 450.248.02-0ubuntu0.22.04.1 apt install nvidia-utils-470 # version 470.256.02-0ubuntu0.22.04.1 apt install nvidia-utils-470-server # version 470.256.02-0ubuntu0.22.04.1 apt install nvidia-utils-535 # version 535.288.01-0ubuntu0.22.04.1 apt install nvidia-utils-535-server # version 535.288.01-0ubuntu0.22.04.1 apt install nvidia-utils-550-server # version 550.163.01-0ubuntu0.22.04.1 apt install nvidia-utils-570 # version 570.211.01-0ubuntu0.22.04.1 apt install nvidia-utils-570-server # version 570.211.01-0ubuntu0.22.04.1 apt install nvidia-utils-580 # version 580.126.09-0ubuntu0.22.04.1 apt install nvidia-utils-580-server # version 580.126.09-0ubuntu0.22.04.1 apt install nvidia-utils-590 # version 590.48.01-0ubuntu0.22.04.3 apt install nvidia-utils-590-server # version 590.48.01-0ubuntu0.22.04.3 apt install nvidia-utils-545 # version 545.29.06-0ubuntu0.22.04.2 apt install nvidia-utils-565-server # version 565.57.01-0ubuntu0.22.04.4 apt install nvidia-utils-510 # version 510.60.02-0ubuntu1 apt install nvidia-utils-510-server # version 510.47.03-0ubuntu3 最高是590，那就装590的驱动 ...

Gemma4破限版的安装

谷歌推出了Gemma4，那有好事者船载以入，直接破了它的道德感，可以逆向，破解，我们来试试吧运行环境： Ubuntu 22.04，Nvidia 3060 8G显卡 # 首先下载模型 uv pip install -U "huggingface_hub" uv tool run hf auth login --token hf_xxxxxxxx # 破限模型的地址：https://huggingface.co/HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive # 本来应该运行Q5_K_M 或者Q5_K_P，但是还要跑多模态，降一档 # 跑Q4_K_P 或者Q4_K_M加上多模态文件 # 下载Q4_KM uv tool run hf download HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf /home/ubuntu/.cache/huggingface/hub/models--HauhauCS--Gemma-4-E4B-Uncensored-HauhauCS-Aggressive/snapshots/45b6a334b4bcd1d7f37179df58b3b1d66a184e5d/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf # 下载多模态文件 uv tool run hf download HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive mmproj-Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-f16.gguf /home/ubuntu/.cache/huggingface/hub/models--HauhauCS--Gemma-4-E4B-Uncensored-HauhauCS-Aggressive/snapshots/45b6a334b4bcd1d7f37179df58b3b1d66a184e5d/mmproj-Gemma-4-E4B-Uncensored-HauhauCS-Aggressive-f16.gguf 然后需要编译llama.app，否则认不出gemma4这个最新的模型： apt install nvidia-driver-590 apt install nvidia-cuda-toolkit apt install gcc-10 g++-10 git clone https://github.com/ggerganov/llama.cpp cd llama.app # apt 安装的590其实版本比较旧，但是ubuntu 22.04自带的gcc11版本高了，导致cuda的编译认不出来高版本的文件 # 所以必须用低版本的gcc来编译旧版本的cuda驱动 cmake -S . -B build -DCMAKE_BUILD_TYPE=Release \ -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=86 \ -DCMAKE_CUDA_HOST_COMPILER=/usr/bin/gcc-10 cmake --build build --config Release -j 8 cd build/bin 编译好后运行测试一下： ...

Linux环境下uv的安装和适用

最近一直在搞chatgpt普号的注册机，L站上五花八门，各式各样，多数是用python写的一个程序一个环境，要是污染整体的环境就不好了最好是一个程序一个独立环境，那就用uv来管理python环境好了，就像用nvm来管理nodejs环境一样安装： curl -LsSf https://astral.sh/uv/install.sh | sh 先看看说明： uv 用法： # 比较稳定的版本 uv python install 3.12 # 建立虚拟环境，固定版本 uv venv --python 3.12 # 激活虚拟环境，多次激活只适用最后一个 . .venv/bin/activate # pip安装 uv pip install # 运行python程序的2种办法 uv run prog.py python prog.py # 一些应用提供了自己的程序，比如huggingface，hf，这就叫做tool uv pip install -U "huggingface_hub" uv tool run hf uv tool run hf auth login --token hf_xxxxxxxx # 详细说明：https://huggingface.co/docs/huggingface_hub/en/guides/cli # 下载单个模型文件 uv tool run hf download HiDream-ai/HiDream-I1-Full text_encoder/model.safetensors # 下载整个目录 uv tool run hf download HuggingFaceH4/zephyr-7b-beta # 直接运行程序，不安装！！！！ uvx uvx hf uvx pycowsay hello from uv

llama.app的编译安装以及模型蒸馏-Ubuntu成功烧毁gpu篇

操作系统是Ubuntu 22.04.5，搭配AMD 6700 xt 12G的显卡本来是Debian系统，可是它对rocm的支持没有Ubuntu好，所以只能洗掉Debian，重新安装了Ubuntu 22.04.5，普通用户是ubuntu 我们在这个平台上学习对模型进行蒸馏，首先安装openssh以及rocm 6.2的最新套件，并克隆llama.app： sudo apt -y install openssh-server sudo apt -y install wget ca-certificates gnupg2 curl sudo apt -y install git cmake build-essential pkg-config sudo apt -y install linux-headers-$(uname -r) gcc-12 sudo mkdir -p /etc/apt/keyrings wget -qO- https://repo.radeon.com/rocm/rocm.gpg.key | sudo gpg --dearmor -o /etc/apt/keyrings/rocm.gpg echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/rocm/apt/6.2 jammy main" sudo tee /etc/apt/preferences.d/rocm-repo-radeon-pin >/dev/null <<'EOF' Package: * Pin: origin "repo.radeon.com" Pin-Priority: 1001 EOF sudo apt update sudo apt -y install rocm-hip-sdk rocm-device-libs rocminfo rocm-smi libssl-dev sudo usermod -a -G video,render $USER hipcc --version rocminfo | head git clone https://github.com/ggerganov/llama.cpp cd llama.cpp/ cmake -S . -B build -DCMAKE_BUILD_TYPE=Release cmake --build build -j 然后安装PyTorch，为了环境干净，用uv来维护python的环境： ...

llamap.app的编译安装-debian半残篇

操作系统是debian 12，搭配AMD 6700 xt 12G的显卡为了学习模型的蒸馏，以及在模型之外套上壳子来对模型的问答进行修正，那就必须自己编译llama.app了首先说结果，deiban 12对rocm的支持并不好，不如Ubuntu，用rocm 6.0编译出来的旧版本llama.app不支持多模态，所以是半残篇 apt install -y wget gnupg2 curl software-properties-common linux-headers-$(uname -r) wget -qO - https://repo.radeon.com/rocm/rocm.gpg.key | sudo gpg --dearmor -o /etc/apt/keyrings/rocm.gpg echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/amdgpu/6.0/ubuntu jammy main" | sudo tee /etc/apt/sources.list.d/amdgpu.list echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/rocm/apt/6.0 jammy main" | sudo tee /etc/apt/sources.list.d/rocm.list sudo tee /etc/apt/preferences.d/rocm-pin-600 <<EOF Package: * Pin: origin repo.radeon.com Pin-Priority: 600 EOF sudo apt update sudo apt install -y amdgpu-dkms rocm-hip-libraries rocm-hip-sdk rocm-smi apt install lrzsz unzip ripgrep apt install git apt install -y git cmake build-essential pkg-config apt install -y amdgpu-dkms rocm-hip-sdk # 存疑 apt install -y libvulkan-dev vulkan-tools mesa-vulkan-drivers apt-get install -y rocm-device-libs apt install curl-devel libssl-dev libcurl4-openssl-dev 拉取llama.cpp源代码 ...

ComfyUI配置z-image-turbo工作流生成图片

书接上文，操作系统是debian 12，搭配AMD 6700 xt 12G的显卡驱动安装看这篇：Claude Code如何使用ollama提供的qwen3:2.5B大模型来私网使用然后我们来安装 # 翻墙才可以clone项目 export https_proxy=http://192.168.1.1:1080 git clone https://github.com/Comfy-Org/ComfyUI # 安装uv curl -LsSf https://astral.sh/uv/install.sh | sh export PATH="$HOME/.local/bin:$PATH" # 安装python 3.12，比较保险 uv python list uv python install 3.12 cd ComfyUI/ # 初始化 uv init uv venv --python 3.12 . .venv/bin/activate # 安装 torch ，要选择合适的torch和rocm 6.0 uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.0 uv pip list # 安装附加 uv pip install -r requirements.txt ComfyUI就装好了 ...

自荐一个Kubernetes的日志采集软件

自荐一个 Kubernetes 的日志采集软件：envlog https://github.com/zhangrr/envlog 软件最大优势采集容器内自定义文件阿里的SLS有个最大的优势，可以在Deployment中宣告pod容器内的文件路径，然后就会自动采集。 Docker引擎可以很容易搜索pod路径，Containerd做起来比较费劲。但这也是最吸引人的特性，如果只采集stdout，那随便什么软件loki、filebeat都可以，就没什么吸引力。这个困扰了我很多年，终于在AI的加持下实现了：例如我们要采集 Pod 内的文件 /tmp/logtest.log： - env: - name: envlog_ngtest value: "/tmp/logtest.log" 该模式会尝试将容器内路径映射到宿主机路径（优先使用 volume mount，其次使用容器 overlay upperdir），并生成对应的 Filebeat paths。然后发往ES、Kafka比较好，本软件优化了ES的字段，去掉了多余的字段，也便于阅读。这也是本软件最大的特色！然后我们去ES的Kibana面板，Management –> Stack Management 建立Index Patterns 然后去 Analytics –> Discover 就可以看到日志的详细内容了：字段做了优化，不需要的字段统统都舍弃了，保留了必要的字段和日志的详细内容。

大语言模型TranslateGemma的实际应用

看到一个非常有趣的例子，分享一下，TranslateGemma以及其应用：首先，TranslateGemma是什么？ TranslateGemma 是一套以 Gemma 3 为基础打造的开放式翻译模型，提供 4B（4 亿）、12B（12 亿）、27B（27 亿）三种参数规模，对应不同的使用场景。支持500组语言，可以识图，识别PDF中的文字。 TranslateGemma 的最大优势在于“可根据设备规模选择模型”，针对不同的计算环境提供了多种版本： 4B（40 亿）版本：已针对移动设备与边缘设备进行优化，适合进行离线翻译或内置于 App 中实时使用。 12B（120 亿）版本：可在笔记本电脑或本地环境顺畅运行，将研究级别的翻译能力带入本机。 27B（270 亿）版本：主打追求最高保真度，适合部署于云端 GPU 或 TPU 环境，例如单颗 NVIDIA H100 或 Google TPU。嘿嘿，我们可以直接在Huggingface下载模型文件，然后在ollama里用 https://huggingface.co/collections/google/translategemma https://www.kaggle.com/models/google/translategemma/ 那更近一步，有个软件，叫做GPT旅行翻译神奇安装之后，点击设定，可以启用离线模式，就下载的是TranslateGemma 4B的模型启动离线模式，没有网的状态下就可以进行翻译：我的手机有点逊色，iphone 12 Pro MAX有点费劲，主流的iphone 16应该很流畅这也算是大模型的立即应用了。

Postgres的恢复之三

那版上的Postgres恢复已经有两篇文章了，这是第三篇，数据大于天啊原因是看到了一篇文章： https://medium.com/engineering-playbook/i-deleted-production-database-on-friday-5-pm-heres-how-i-didn-t-get-fired-e5e53a133f9b 我们来复盘整个过程，同事提醒自己也要同样清醒和多留备份一、建立**Point-in-Time Recovery (PITR)**归档 # ps axjf的结果中，看到配置文件是 /etc/postgresql/13/main/postgresql.conf # 那就修改这个配置文件 # 修改以下2行 # 启用归档 archive_mode = on # WAL 日志归档路径 archive_command = 'cp %p /path_to_archive_directory/%f' # 然后重启服务生效 systemctl restart postgresql 二、建立每6小时的full backup # Cron job running every 6 hours pg_dump production_db | gzip > backup_$(date +%Y%m%d_%H%M%S).sql.gz 三、恢复full backup # Create new database createdb production_db # Restore from backup gunzip < backup_20240126_160000.sql.gz | psql production_db 四、恢复WAL log归档备份 # Restore WAL logs from 4 PM to 5 PM recovery_target_time = '2024-01-26 17:00:00'

Livekit的安装

Livekit是个语音的套件，安装确实比较困难，步骤如下：准备好Debian 12，安装好Docker，因为Livekit安装脚本其实是有问题的 apt update apt install -y curl gpg wget -O - https://download.docker.com/linux/debian/gpg | gpg --dearmor -o /etc/apt/keyrings/docker.gpg echo "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/debian \ $(lsb_release -cs) stable" | tee /etc/apt/sources.list.d/docker.list > /dev/null apt update; apt install -y docker-ce 然后直接generate安装脚本 cd /root docker run --rm -it -v$PWD:/output livekit/generate 然后开始提问回答环节 LiveKit Server only 主域名： turn的辅助域名：用什么证书，当然ACME 版本，选最新的latest 是否用外部的redis，当然no，选内置的然后生成脚本会给一段提示 ...

共 40 页