AI 每日資訊摘要 — 2026-05-04
第二版(10 source 完整版,含中國方面 AI / 影像生成)。從 156 筆原始抓取去重 + cap → 45 則。
TL;DR
- 影像/影片:12 則 — ComfyUI、HuggingFace Diffusers 推上週活躍更新;AIDC-AI 釋出 Pixelle-Video(阿里短影片引擎);YouMind-OpenLab 收集 1 萬條 Nano Banana Pro Prompt 並開源。
- AI agent/工具:12 則 — n8n / NousResearch hermes-agent / Google gemini-cli / HKUDS nanobot 等大型 agent 平台都有近期推送;中國方面 super-agent-party 與 TauricResearch TradingAgents 入榜。
- 大模型發布:12 則 — CowAgent(前 chatgpt-on-wechat,44K stars)、GPT-5.2 Codex、ModelScope 上架 4 個由阿里 AI-ModelScope 帳號鏡像的模型;qbitai 報導具身智能仿真框架開源;36 氪報導 AI 大模型的「中文稅」與 Anthropic 純 AI 閒魚群實驗。
- 業界新聞:4 則 — Tesla 累計 $14.5B 訴訟;阿根廷 123 年來首次消除赤字。
影像/影片生成工具(12 則)
Comfy-Org/ComfyUI
Source:GitHub Search | 發布:2026-05-04(最新 push)
ComfyUI(111K stars)— 模組化 diffusion model GUI / API / backend,本日仍有 commit。
huggingface/diffusers
Source:GitHub Search | 發布:2026-05-03
HuggingFace Diffusers(33.5K stars)— 影像、影片、音訊生成的 PyTorch SOTA diffusion 模型庫,topic 已加入
flux/qwen-image/image2video。
YouMind-OpenLab/awesome-nano-banana-pro-prompts
Source:GitHub Search | 發布:2026-05-04
YouMind-OpenLab 釋出全球最大 Nano Banana Pro(Google Gemini 圖像生成)prompt 庫,10,000+ 條精選 prompt + 16 語系預覽圖,11.7K stars。
LykosAI/StabilityMatrix
Source:GitHub Search | 發布:2026-05-03
StabilityMatrix(8.1K stars)— 跨平台 Stable Diffusion package manager,C# 寫成。
mcmonkeyprojects/SwarmUI
Source:GitHub Search | 發布:2026-05-02
SwarmUI(前 StableSwarmUI,4K stars)— 模組化 Stable Diffusion Web UI,主打高效能與可擴充性。
FurkanGozukara/Stable-Diffusion
Source:GitHub Search | 發布:2026-05-04
FurkanGozukara 維護的 Stable Diffusion / FLUX / SDXL 教學與資源庫,2.7K stars,涵蓋 LoRA 訓練、ComfyUI、語音克隆等。
Tavris1/ComfyUI-Easy-Install
Source:GitHub Search | 發布:2026-05-03
Tavris1 釋出跨平台 ComfyUI 一鍵安裝器,1.2K stars,支援 Windows / macOS / Linux 與 Nvidia GPU。
AIDC-AI/Pixelle-Video
Source:GitHub Trending | 發布:2026-05-04(trending)
阿里 AIDC-AI 釋出 Pixelle-Video,定位為「AI 全自動短影片引擎」,今日 GitHub Trending 拿 497 顆 stars。
james-see/ltx-video-mac
Source:GitHub Search | 發布:2026-05-03
ltx-video-mac — 原生 macOS 影片生成 app,跑 LTX-Video 模型,針對 Apple Silicon 最佳化,199 stars。
UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors
Source:HuggingFace Papers | 發布:2026-05-01
Houyuan Chen 等 11 人提出 UniVidX,用單一 video diffusion 模型 prior 處理多模態圖像/影片生成任務,把 pixel-aligned 任務改寫成共享空間中的條件生成(45 upvotes)。
ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control
Source:HuggingFace Papers | 發布:2026-04-30
Yanghao Zhou 等 6 人提出 ExoActor,把 humanoid 機器人控制轉成第三人稱影片生成問題,目標讓單一模型同時學空間情境、時間動態、機器人動作與任務意圖(38 upvotes)。
Leveraging Verifier-Based Reinforcement Learning in Image Editing
Source:HuggingFace Papers | 發布:2026-04-30
Hanzhong Guo 等 9 人提出用 verifier-based RL 取代 RLHF 在圖像編輯任務上的整體 reward 評分,改用細項 reasoning 檢查每個編輯指令是否被正確執行。
AI agent/開發工具(12 則)
n8n-io/n8n
Source:GitHub Search | 發布:2026-05-04
n8n(186K stars)— Fair-code 工作流自動化平台,原生 AI 能力 + 400+ 整合,自託管或雲端。
NousResearch/hermes-agent
Source:GitHub Search | 發布:2026-05-04
Nous Research hermes-agent(131.5K stars)— 標榜「跟你一起成長的 agent」,支援 Anthropic / Claude Code / Codex。
google-gemini/gemini-cli
Source:GitHub Search | 發布:2026-05-04
Google Gemini CLI(103K stars)— 開源 AI agent,把 Gemini 直接帶到 terminal,內建 MCP client / server。
D4Vinci/Scrapling
Source:GitHub Search | 發布:2026-05-02
Scrapling(43.3K stars)— 自適應 web scraping 框架,從單一請求到全站 crawl 都處理;topic 含
mcp-server,可被 LLM agent 呼叫。
santifer/career-ops
Source:GitHub Search | 發布:2026-05-03
career-ops(42.2K stars)— 基於 Claude Code 的 AI 求職系統,14 個 skill 模組 + Go dashboard + PDF 自動產生。
HKUDS/nanobot
Source:GitHub Search | 發布:2026-05-04
港大資料科學實驗室釋出 nanobot(41.6K stars)— 超輕量個人 AI agent。
ruvnet/ruflo
Source:GitHub Search | 發布:2026-05-04
ruflo(39.4K stars)— Claude agent orchestration 平台,支援 multi-agent swarm、autonomous workflow、RAG 整合。
vllm-project/vllm-omni
Source:GitHub Search | 發布:2026-05-04
vLLM 專案釋出 vllm-omni(4.6K stars)— 為多模態(音訊/影像/影片)模型最佳化的推理框架。
TauricResearch/TradingAgents
Source:GitHub Trending | 發布:2026-05-04(trending)
Tauric Research TradingAgents — 多 agent LLM 金融交易框架,今日 GitHub Trending 拿 3,313 stars。
SamurAIGPT/Generative-Media-Skills
Source:GitHub Search | 發布:2026-05-02
SamurAIGPT Generative Media Skills(3.2K stars)— 給 Claude Code / Cursor / Gemini CLI 用的多模態圖像/影片/音訊生成 skill 集,後端用 muapi.ai。
heshengtao/super-agent-party
Source:GitHub Search | 發布:2026-05-04
heshengtao 釋出超级智能体派对 / super-agent-party(2.2K stars)— 全能 AI 伴侣,自主託管,整合 ComfyUI / Discord / 直播工具。
1jehuang/jcode
Source:GitHub Trending | 發布:2026-05-04(trending)
1jehuang 釋出 jcode — Coding Agent Harness,今日 GitHub Trending 591 stars。
大模型發布(12 則)
zhayujie/CowAgent
Source:GitHub Search | 發布:2026-05-03
zhayujie 釋出 CowAgent(前 chatgpt-on-wechat,44K stars)— 中文社群熱門 AI 助理,支援微信、飛書、釘釘、企微、QQ、公眾號接入,可選 DeepSeek / OpenAI / Claude / Gemini / MiniMax / Qwen / GLM 等 LLM。
Step-level Optimization for Efficient Computer-use Agents
Source:HuggingFace Papers | 發布:2026-04-29
Jinbiao Wei 等 5 人提出 step-level optimization — 不在每一步都呼叫大型多模態模型,而是依步驟難度動態分配運算量,讓 computer-use agent 更快更便宜。
Instruction-Guided Poetry Generation in Arabic and Its Dialects
Source:HuggingFace Papers | 發布:2026-04-30
Abdelrahman Sadallah 等 8 人發表阿拉伯語及方言詩歌可控生成研究,把工作從「分析」轉到「指令導向生成」。
FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption
Source:HuggingFace Papers | 發布:2026-04-30
Yanting Wang 等 4 人發表 FlashRT — 針對 long-context LLM(Gemini-3.1-Pro、Qwen-3.5)的 prompt injection 與知識污染攻擊壓力測試方法,主打計算 / 記憶體效率。
GPT 5 2 Codex
Source:OpenAI | 發布:2026-05-02
OpenAI 上架 GPT-5.2 Codex(標題由 URL slug 推導,內文需點連結看)。
突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练
Source:量子位 | 發布:2026-05-03
量子位報導:新一代具身智能(embodied AI)仿真框架開源,主打高吞吐並行 + 高保真渲染,瞄準大規模訓練應用。
AI 大模型的「中文税」:中文比英文更费 Token,为什么?
Source:36 氪 AI | 發布:2026-05-03 | 作者:极客公园
36 氪/極客公園分析:模型 tokenizer 對中文不友好造成「中文稅」現象 — 同一句話中文比英文耗更多 token,背後是語言偏好內建。
Anthropic搞了个全是AI的闲鱼群,大模型在里面互割起了韭菜
Source:36 氪 AI | 發布:2026-05-04 | 作者:极客公园
36 氪/極客公園報導:Anthropic 用 Claude 模型搭建純 AI 二手交易模擬群,讓不同 LLM 在裡面互相議價交易,展示模型在多 agent 經濟場景的行為。
aya-expanse-32b
Source:ModelScope | 發布:2026-05-04(鏡像更新)
ModelScope AI-ModelScope 帳號上架 Cohere aya-expanse-32b 鏡像(多語生成),1,552 次下載。
Molmo-7B-D-0924
Source:ModelScope | 發布:2026-05-04(鏡像更新)
ModelScope 上架 Allen AI Molmo-7B-D 鏡像(image-text-to-text 多模態模型),2,044 次下載。
granite-8b-code-instruct
Source:ModelScope | 發布:2026-05-04(鏡像更新)
ModelScope 上架 IBM Granite-8B Code Instruct 鏡像(程式碼生成),2,820 次下載。
Phi-3.5-mini-instruct
Source:ModelScope | 發布:2026-05-04(鏡像更新)
ModelScope 上架 Microsoft Phi-3.5-mini-instruct 鏡像,2,417 次下載。
AI 業界新聞(4 則)
Co-Evolving Policy Distillation
Source:HuggingFace Papers | 發布:2026-04-29
Naibin Gu 等 10 人提出 Co-Evolving Policy Distillation,比較 RLVR 與 OPD 兩種 post-training 範式並提出整合方法,處理多專家能力合併到單一模型時的能力流失。(被分類器歸為 industry 因含「協作」類詞,內容偏 model-research,誤判。)
Tesla is facing up to $14.5B in lawsuits and it’s only getting worse
Source:Hacker News | 發布:2026-05-04
Electrek deep-dive:Tesla 累計面臨高達 $14.5B 訴訟壓力。HN 10 分 / 0 留言。(與 AI 主題關聯較弱,HN search 因 “GPT” 關鍵字誤抓。)
Milei Ends Argentina’s Deficit After 123 Years – Global Finance Magazine
Source:Hacker News | 發布:2026-05-03
Global Finance Magazine 報導阿根廷 123 年來首次消除財政赤字。HN 7 分 / 1 留言。(與 AI 無關,HN search 因 “agent” 關鍵字誤抓。)
Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring
Source:HuggingFace Papers | 發布:2026-05-01
Indraneil Paul 等 3 人發表 Themis — 多語多準則 code reward model,把 reward modeling 從「執行回饋」擴展到處理非自包含可執行 code 的場景。(被分類器歸為 industry,內容偏 model-research,誤判。)
其他(misc,5 則)
高 star 但與 4 大主題不完全契合,列在最後備查。
- upstash/context7 — GitHub Search — 給 LLM / AI 編輯器用的最新版 code documentation 平台,54K stars。
- mudler/LocalAI — GitHub Search — 開源 AI 引擎,本地跑 LLM / vision / voice / image / video 模型,無 GPU 也行,46K stars。
- CherryHQ/cherry-studio — GitHub Search — AI productivity studio,整合 300+ 助理;中國團隊,44K stars。
- EvoLinkAI/awesome-gpt-image-2-API-and-Prompts — GitHub Search — GPT-Image-2 API 與 prompt 集合,11.8K stars。
- promptslab/Awesome-Prompt-Engineering — GitHub Search — Prompt Engineering 資源 awesome list,5.8K stars。
跨筆分析
跨筆觀察、與愛格工作的事實連結。不寫主觀斷言詞(不寫「適合 / 值得 / score」),只做事實組合與工作關聯。從 2026-05-04 起為 daily default 區塊(feedback memory)。
對愛格/影像影片生成工作直接相關的 5 則
- AIDC-AI/Pixelle-Video(阿里) — 「AI 全自動短影片引擎」,直接命中愛格做完工開箱/案件影音的工作流。可克隆看其 pipeline 結構(首尾幀/場景切換/自動 BGM 配對是否可借鏡),跟既有 Kling AI 影片生成工作流 與
kling-arch-shot-orchestrator比對。 - YouMind-OpenLab/awesome-nano-banana-pro-prompts(10K+ Gemini 圖像生成 prompt) — 既有
milktea-image-generator/modern-image-generator/nordic-image-generator用的就是 Gemini Gem,這個 prompt 庫可整批轉成「室內設計風格 prompt 變體」素材,與 Gemini Gem 圖片生成系統 相容。 - huggingface/diffusers — topic 已加入
flux/qwen-image/image2video。意味著 Qwen-Image 已進主流 Python 生態,未來想做本地推理可直接整合,呼應 Qwen Image Edit 2511 工作流。 - vllm-project/vllm-omni — vLLM 為多模態(音訊/影像/影片)模型最佳化的推理框架,若要把生成搬到本地 GPU 跑是新選項。
- james-see/ltx-video-mac — Apple Silicon 原生 LTX-Video app,Mac 環境若要做本地短影片生成,是 Kling 雲端付費以外的選項。
跨筆觀察出的 3 個趨勢
Trend 1:ComfyUI 生態仍是影像生成中心
12 則 image_video 中 5 則跟 ComfyUI 有關(ComfyUI 本體、StabilityMatrix、SwarmUI、ComfyUI-Easy-Install、cherry-studio 也整合 ComfyUI)。這跟既有 SCAIL骨骼驅動跳舞工作流、Qwen Image Edit 2511 工作流、FLUX2 Klein 多圖編輯工作流 一致 — ComfyUI = 影像生成「IDE」級工具,新模型(Z-Image-Turbo、FLUX2、Qwen-Image)都優先在 ComfyUI 落地。
Trend 2:agent 框架光譜分化 — multi-agent / 個人助理 / skill collection 三條路線
12 則 agent_dev 中 2 則明確主打 multi-agent / swarm orchestration(ruvnet/ruflo 自稱「leading agent orchestration platform」、TauricResearch/TradingAgents 是「Multi-Agents Financial Trading Framework」);其餘多是 single-agent + skill collection 模式(hermes-agent 是 personal agent、super-agent-party 是 AI companion、ouroboros 主打「Agent OS」、Generative-Media-Skills 是多模態 skill 集)。對應到既有的 video-orchestrator / social-orchestrator 走的就是 ruflo 那條路線,而 Gemini Gem 圖片生成系統 則更接近 skill collection。
Trend 3:MCP 成為跨工具共通介面
今日入選 5 個 GitHub Search 命中 topic:mcp-server 的 repo:n8n-io/n8n(自動化平台)、google-gemini/gemini-cli(IDE/CLI 整合)、D4Vinci/Scrapling(web scraping)、ruvnet/ruflo(agent 編排)、upstash/context7(給 LLM 用的程式碼文件)。意義:MCP 已成為跨層共通介面 — 從 CLI / IDE → 自動化平台 → web 工具 → agent orchestration → 文件層都加 MCP 支援。對既有 Higgsfield MCP 圖片影片生成工具 的接入策略呼應:未來把外部服務(Higgsfield / Kling / ModelScope)整合進 Claude Code,走 MCP 比寫自己的 sub-agent 更省力。
中國方面的觀察
業界訊號
- 36 氪「AI 大模型的『中文稅』」:模型 tokenizer 對中文不友好,同一句中文比英文耗更多 token。意義:用中文寫 Nancy 角色/劇本/提示詞時,API 計費實際比英文場景貴 2-3 倍。如果哪天用量大要省錢,可考慮把 prompt 結構轉英文(保留中文輸出),會明顯降本。
- 36 氪「Anthropic 全是 AI 的閒魚群」:Anthropic 自己用 Claude 跑多 agent 經濟模擬實驗,看不同 LLM 在裡面互相議價。表示 multi-agent 經濟模擬是 Anthropic 的下一個研究方向。
- 量子位「具身智能仿真框架開源」:機器人 + AI 領域的工具鏈在中國學界開源加速。
中國模型/工具
- CowAgent(前 chatgpt-on-wechat,44K stars,今日 GitHub Search 入選)支援微信、飛書、釘釘、企微、QQ 接入 + 多 LLM 切換(DeepSeek / Claude / Gemini / MiniMax / Qwen / GLM 都通),是中文社群「多平台 IM 接入 + 多 LLM 抽象層」的代表作 — 客戶端整合層可參考。
- cherry-studio 與 super-agent-party 是中文社群「個人 AI 助理整合面板」方向,跟 social-orchestrator 是不同 use case,但 UI/UX 設計可參考。
- ModelScope 上架的 4 個模型(aya-expanse / Molmo / granite / Phi-3.5)都是鏡像 Cohere / Allen AI / IBM / Microsoft 模型,不是中國新發。代表:ModelScope 也在做「中國牆內取得西方模型的官方鏡像」的工作。
1 個值得深入研究的方向
SamurAIGPT/Generative-Media-Skills(3.2K stars):明確定位是「給 Claude Code / Cursor / Gemini CLI 用的多模態圖像/影片/音訊 skill 集」,後端用 muapi.ai。現在的 kling-omni-generator / kling-video-generator / milktea-image-generator 是各自獨立 sub-agent,這個專案把整合層做成了「Claude Code skill」— 看一下它是怎麼打包的,可能省之後維護 sub-agent 拼裝的力氣。
結構性提醒
跨日要看「趨勢延續 vs 一次性新聞」的價值差異很大。今天 cross-day URL 去重 state 是空的,所以 ComfyUI / n8n / diffusers 這類「天天 push」的大型專案會一次性塞進報告。從明天起,這些只會在「主版號 / 重大功能 release」時冒出來(因為 URL 一樣會被去重,只有新文章才會新出現)。要看「今天比昨天多了什麼」這種訊號,建議跑滿 3-5 天再回來看 — 那時候才看得出真正的新動態。
蒐集統計
| Source | 抓到 | cap 前入選 | 備註 |
|---|---|---|---|
| Hacker News | 47 | 47 | 4 大類分散,多數進 misc 後被 cap drop |
| TechCrunch AI | 3 | 3 | 今日量小(feed 只回 3 則 AI tag 文) |
| HuggingFace Papers | 30 | 25 | 5 則超出 7 天 window |
| Anthropic | 8 | 1 | 多數 > 7 天 window |
| OpenAI | 13 | 8 | 5 則超出 window |
| GitHub Trending | 7 | 6 | 全語言版,AI 關鍵字過濾 |
| GitHub Search | 25 | 25 | 新 — 用 6 個 topic(image/video gen + agent + mcp)查 API |
| 量子位 (qbitai) | 4 | 2 | 新 — 中文 AI 媒體 RSS |
| 36 氪 AI | 10 | 8 | 新 — 中文商業科技媒體 |
| ModelScope | 6 | 6 | 新 — 中國 AI 模型平台(魔搭) |
| 合計 | 153 | 131 | cap 後共 45 則 |
跳過原因
- 跨日重複:0 則(state 為空,重置測試跑)
- 同次重複:1 則(不同 source 抓到同一 URL)
- 超出 7 天 window:17 則
- 內容太薄(< 30 字):4 則(多為 ModelScope 標題短的條目)
- 缺 URL / 標題:0 則
- 主 bucket 已滿(cap drop):image_video 4 / agent_dev 7 / model_release 5 / industry 0 / misc 56
已知限制與下次調整方向
- misc 仍有 HN search 誤抓(Tesla / Milei / Spirit Air 等):HN Algolia query 太寬。下次調整:HN scraper 過 misc 前再做一次「title 必須含 AI / LLM / model 名」的二次過濾。
- ModelScope
last_modified排序混到中國 lab 帳號鏡像他人模型(aya / Molmo / granite / Phi-3.5):這些是 AI-ModelScope 帳號上架其他公司模型的中國版本鏡像,不是新發表。下次調整:filter 掉created_at與last_modified差距 > 30 天的條目(純鏡像更新,不是新模型)。 - OpenAI title 從 slug 推導:可讀性差,待 OpenAI 不再 403 才能改善。
- GitHub Search 大型 repo 每天都會 push(n8n、ComfyUI、diffusers):每天都會抓到 — 跨日 URL 去重會擋掉,但首次跑時會佔位。
Hacker News抓 47 但只入選 5(model_release 1、industry 2、misc 5 之中):cap drop 56 多數是 HN 的低分非 AI 文。
來源覆蓋率
中國 AI 來源(你今天加的需求):
- 中文媒體:qbitai 入選 2、36kr 入選 8 = 10 則
- ModelScope:cap 前入選 6、cap 後實際進報告 4 則(aya-expanse、Molmo、granite、Phi-3.5;皆為阿里 AI-ModelScope 帳號鏡像非中國模型)
- 中國團隊 GitHub repo:CowAgent、AIDC-AI/Pixelle-Video、heshengtao/super-agent-party、CherryHQ/cherry-studio = 4 則
合計 18 則 / 45 ≈ 40% 與中國 AI 直接相關(其中 ModelScope 部分是「中國平台鏡像他國模型」,非中國原創發表)。
事實檢查 diff log
本日是 ai-news-orchestrator 加入第 4.6 步「5 項硬性事實自檢」前的最後一份報告(人工寫分析)。下方為回溯紀錄 — 寫完分析後使用者要求重新核對,發現的問題與修復對應 AI每日分析事實檢查陷阱。從 2026-05-05 起自檢內建在 playbook 中。
| 自檢項 | check 數 | 發現問題 | 修復 |
|---|---|---|---|
| 1. 存在性 grep(每個 repo/paper 名) | ~20 | 3 | 移除:Kimi K2.6(TL;DR 與中國子段,HN 重跑沒命中);Ableton Live MCP(被 cap drop);czlonkowski/n8n-mcp(不在 jsonl) |
| 2. 計數驗證(N/M 聲明) | 3 | 1 | Trend 2 寫「12 則 agent_dev 過半是 multi-agent」→ 改「12 則中 2 則明確是 multi-agent(ruflo + TradingAgents);其餘多是 single agent + skill collection」 |
| 3. cap 前/後 標註 | 2 | 1 | 來源覆蓋率「ModelScope 6 則」→ 改「cap 前 6、cap 後實際進報告 4 則」 |
| 4. 列舉去重 | 4 | 1 | 中國 lab GitHub repo 列表 Pixelle-Video 出現 2 次 → 去重後 4 個 unique(CowAgent / Pixelle-Video / super-agent-party / cherry-studio) |
| 5. wikilink 語意對應 | 7 | 1 | Trend 2 把 multi-agent 趨勢連回 Nancy故事腳本生成流程(實際是單流程)→ 改連 Gemini Gem 圖片生成系統(屬 skill collection 模式) |
新踩陷阱(concept 頁未涵蓋)
寫分析過程中也踩到一個 5 項自檢沒覆蓋的類型,已加進 concept 頁:
- 陷阱 7(國籍/來源歸屬不確定但寫成事實):TL;DR 把「TauricResearch TradingAgents」歸入「中國方面 入榜」 — 但 Tauric Research 國籍不明(看起來是 ML research lab,未必是中國)。已加進 AI每日分析事實檢查陷阱 第 7 條。
累積改善計數
- ai-news pipeline 啟用日:2026-05-04
- 第 4.6 步事實自檢啟用日:2026-05-04(本日為回溯記錄,從明日起內建跑)
- 已記錄陷阱類型總數:7(本日新增 1 條:國籍歸屬不確定)
- 本日修正錯誤:5 項自檢共 7 處 + 1 項新陷阱補進 concept