AI 每日資訊摘要 — 2026-05-04

第二版(10 source 完整版,含中國方面 AI / 影像生成)。從 156 筆原始抓取去重 + cap → 45 則。

TL;DR

  • 影像/影片:12 則 — ComfyUI、HuggingFace Diffusers 推上週活躍更新;AIDC-AI 釋出 Pixelle-Video(阿里短影片引擎);YouMind-OpenLab 收集 1 萬條 Nano Banana Pro Prompt 並開源。
  • AI agent/工具:12 則 — n8n / NousResearch hermes-agent / Google gemini-cli / HKUDS nanobot 等大型 agent 平台都有近期推送;中國方面 super-agent-party 與 TauricResearch TradingAgents 入榜。
  • 大模型發布:12 則 — CowAgent(前 chatgpt-on-wechat,44K stars)、GPT-5.2 Codex、ModelScope 上架 4 個由阿里 AI-ModelScope 帳號鏡像的模型;qbitai 報導具身智能仿真框架開源;36 氪報導 AI 大模型的「中文稅」與 Anthropic 純 AI 閒魚群實驗。
  • 業界新聞:4 則 — Tesla 累計 $14.5B 訴訟;阿根廷 123 年來首次消除赤字。

影像/影片生成工具(12 則)

Comfy-Org/ComfyUI

Source:GitHub Search | 發布:2026-05-04(最新 push)

ComfyUI(111K stars)— 模組化 diffusion model GUI / API / backend,本日仍有 commit。

huggingface/diffusers

Source:GitHub Search | 發布:2026-05-03

HuggingFace Diffusers(33.5K stars)— 影像、影片、音訊生成的 PyTorch SOTA diffusion 模型庫,topic 已加入 flux / qwen-image / image2video

YouMind-OpenLab/awesome-nano-banana-pro-prompts

Source:GitHub Search | 發布:2026-05-04

YouMind-OpenLab 釋出全球最大 Nano Banana Pro(Google Gemini 圖像生成)prompt 庫,10,000+ 條精選 prompt + 16 語系預覽圖,11.7K stars。

LykosAI/StabilityMatrix

Source:GitHub Search | 發布:2026-05-03

StabilityMatrix(8.1K stars)— 跨平台 Stable Diffusion package manager,C# 寫成。

mcmonkeyprojects/SwarmUI

Source:GitHub Search | 發布:2026-05-02

SwarmUI(前 StableSwarmUI,4K stars)— 模組化 Stable Diffusion Web UI,主打高效能與可擴充性。

FurkanGozukara/Stable-Diffusion

Source:GitHub Search | 發布:2026-05-04

FurkanGozukara 維護的 Stable Diffusion / FLUX / SDXL 教學與資源庫,2.7K stars,涵蓋 LoRA 訓練、ComfyUI、語音克隆等。

Tavris1/ComfyUI-Easy-Install

Source:GitHub Search | 發布:2026-05-03

Tavris1 釋出跨平台 ComfyUI 一鍵安裝器,1.2K stars,支援 Windows / macOS / Linux 與 Nvidia GPU。

AIDC-AI/Pixelle-Video

Source:GitHub Trending | 發布:2026-05-04(trending)

阿里 AIDC-AI 釋出 Pixelle-Video,定位為「AI 全自動短影片引擎」,今日 GitHub Trending 拿 497 顆 stars。

james-see/ltx-video-mac

Source:GitHub Search | 發布:2026-05-03

ltx-video-mac — 原生 macOS 影片生成 app,跑 LTX-Video 模型,針對 Apple Silicon 最佳化,199 stars。

UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

Source:HuggingFace Papers | 發布:2026-05-01

Houyuan Chen 等 11 人提出 UniVidX,用單一 video diffusion 模型 prior 處理多模態圖像/影片生成任務,把 pixel-aligned 任務改寫成共享空間中的條件生成(45 upvotes)。

ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

Source:HuggingFace Papers | 發布:2026-04-30

Yanghao Zhou 等 6 人提出 ExoActor,把 humanoid 機器人控制轉成第三人稱影片生成問題,目標讓單一模型同時學空間情境、時間動態、機器人動作與任務意圖(38 upvotes)。

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Source:HuggingFace Papers | 發布:2026-04-30

Hanzhong Guo 等 9 人提出用 verifier-based RL 取代 RLHF 在圖像編輯任務上的整體 reward 評分,改用細項 reasoning 檢查每個編輯指令是否被正確執行。

AI agent/開發工具(12 則)

n8n-io/n8n

Source:GitHub Search | 發布:2026-05-04

n8n(186K stars)— Fair-code 工作流自動化平台,原生 AI 能力 + 400+ 整合,自託管或雲端。

NousResearch/hermes-agent

Source:GitHub Search | 發布:2026-05-04

Nous Research hermes-agent(131.5K stars)— 標榜「跟你一起成長的 agent」,支援 Anthropic / Claude Code / Codex。

google-gemini/gemini-cli

Source:GitHub Search | 發布:2026-05-04

Google Gemini CLI(103K stars)— 開源 AI agent,把 Gemini 直接帶到 terminal,內建 MCP client / server。

D4Vinci/Scrapling

Source:GitHub Search | 發布:2026-05-02

Scrapling(43.3K stars)— 自適應 web scraping 框架,從單一請求到全站 crawl 都處理;topic 含 mcp-server,可被 LLM agent 呼叫。

santifer/career-ops

Source:GitHub Search | 發布:2026-05-03

career-ops(42.2K stars)— 基於 Claude Code 的 AI 求職系統,14 個 skill 模組 + Go dashboard + PDF 自動產生。

HKUDS/nanobot

Source:GitHub Search | 發布:2026-05-04

港大資料科學實驗室釋出 nanobot(41.6K stars)— 超輕量個人 AI agent。

ruvnet/ruflo

Source:GitHub Search | 發布:2026-05-04

ruflo(39.4K stars)— Claude agent orchestration 平台,支援 multi-agent swarm、autonomous workflow、RAG 整合。

vllm-project/vllm-omni

Source:GitHub Search | 發布:2026-05-04

vLLM 專案釋出 vllm-omni(4.6K stars)— 為多模態(音訊/影像/影片)模型最佳化的推理框架。

TauricResearch/TradingAgents

Source:GitHub Trending | 發布:2026-05-04(trending)

Tauric Research TradingAgents — 多 agent LLM 金融交易框架,今日 GitHub Trending 拿 3,313 stars。

SamurAIGPT/Generative-Media-Skills

Source:GitHub Search | 發布:2026-05-02

SamurAIGPT Generative Media Skills(3.2K stars)— 給 Claude Code / Cursor / Gemini CLI 用的多模態圖像/影片/音訊生成 skill 集,後端用 muapi.ai。

heshengtao/super-agent-party

Source:GitHub Search | 發布:2026-05-04

heshengtao 釋出超级智能体派对 / super-agent-party(2.2K stars)— 全能 AI 伴侣,自主託管,整合 ComfyUI / Discord / 直播工具。

1jehuang/jcode

Source:GitHub Trending | 發布:2026-05-04(trending)

1jehuang 釋出 jcode — Coding Agent Harness,今日 GitHub Trending 591 stars。

大模型發布(12 則)

zhayujie/CowAgent

Source:GitHub Search | 發布:2026-05-03

zhayujie 釋出 CowAgent(前 chatgpt-on-wechat,44K stars)— 中文社群熱門 AI 助理,支援微信、飛書、釘釘、企微、QQ、公眾號接入,可選 DeepSeek / OpenAI / Claude / Gemini / MiniMax / Qwen / GLM 等 LLM。

Step-level Optimization for Efficient Computer-use Agents

Source:HuggingFace Papers | 發布:2026-04-29

Jinbiao Wei 等 5 人提出 step-level optimization — 不在每一步都呼叫大型多模態模型,而是依步驟難度動態分配運算量,讓 computer-use agent 更快更便宜。

Instruction-Guided Poetry Generation in Arabic and Its Dialects

Source:HuggingFace Papers | 發布:2026-04-30

Abdelrahman Sadallah 等 8 人發表阿拉伯語及方言詩歌可控生成研究,把工作從「分析」轉到「指令導向生成」。

FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption

Source:HuggingFace Papers | 發布:2026-04-30

Yanting Wang 等 4 人發表 FlashRT — 針對 long-context LLM(Gemini-3.1-Pro、Qwen-3.5)的 prompt injection 與知識污染攻擊壓力測試方法,主打計算 / 記憶體效率。

GPT 5 2 Codex

Source:OpenAI | 發布:2026-05-02

OpenAI 上架 GPT-5.2 Codex(標題由 URL slug 推導,內文需點連結看)。

突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练

Source:量子位 | 發布:2026-05-03

量子位報導:新一代具身智能(embodied AI)仿真框架開源,主打高吞吐並行 + 高保真渲染,瞄準大規模訓練應用。

AI 大模型的「中文税」:中文比英文更费 Token,为什么?

Source:36 氪 AI | 發布:2026-05-03 | 作者:极客公园

36 氪/極客公園分析:模型 tokenizer 對中文不友好造成「中文稅」現象 — 同一句話中文比英文耗更多 token,背後是語言偏好內建。

Anthropic搞了个全是AI的闲鱼群,大模型在里面互割起了韭菜

Source:36 氪 AI | 發布:2026-05-04 | 作者:极客公园

36 氪/極客公園報導:Anthropic 用 Claude 模型搭建純 AI 二手交易模擬群,讓不同 LLM 在裡面互相議價交易,展示模型在多 agent 經濟場景的行為。

aya-expanse-32b

Source:ModelScope | 發布:2026-05-04(鏡像更新)

ModelScope AI-ModelScope 帳號上架 Cohere aya-expanse-32b 鏡像(多語生成),1,552 次下載。

Molmo-7B-D-0924

Source:ModelScope | 發布:2026-05-04(鏡像更新)

ModelScope 上架 Allen AI Molmo-7B-D 鏡像(image-text-to-text 多模態模型),2,044 次下載。

granite-8b-code-instruct

Source:ModelScope | 發布:2026-05-04(鏡像更新)

ModelScope 上架 IBM Granite-8B Code Instruct 鏡像(程式碼生成),2,820 次下載。

Phi-3.5-mini-instruct

Source:ModelScope | 發布:2026-05-04(鏡像更新)

ModelScope 上架 Microsoft Phi-3.5-mini-instruct 鏡像,2,417 次下載。

AI 業界新聞(4 則)

Co-Evolving Policy Distillation

Source:HuggingFace Papers | 發布:2026-04-29

Naibin Gu 等 10 人提出 Co-Evolving Policy Distillation,比較 RLVR 與 OPD 兩種 post-training 範式並提出整合方法,處理多專家能力合併到單一模型時的能力流失。(被分類器歸為 industry 因含「協作」類詞,內容偏 model-research,誤判。)

Tesla is facing up to $14.5B in lawsuits and it’s only getting worse

Source:Hacker News | 發布:2026-05-04

Electrek deep-dive:Tesla 累計面臨高達 $14.5B 訴訟壓力。HN 10 分 / 0 留言。(與 AI 主題關聯較弱,HN search 因 “GPT” 關鍵字誤抓。)

Milei Ends Argentina’s Deficit After 123 Years – Global Finance Magazine

Source:Hacker News | 發布:2026-05-03

Global Finance Magazine 報導阿根廷 123 年來首次消除財政赤字。HN 7 分 / 1 留言。(與 AI 無關,HN search 因 “agent” 關鍵字誤抓。)

Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring

Source:HuggingFace Papers | 發布:2026-05-01

Indraneil Paul 等 3 人發表 Themis — 多語多準則 code reward model,把 reward modeling 從「執行回饋」擴展到處理非自包含可執行 code 的場景。(被分類器歸為 industry,內容偏 model-research,誤判。)

其他(misc,5 則)

高 star 但與 4 大主題不完全契合,列在最後備查。


跨筆分析

跨筆觀察、與愛格工作的事實連結。不寫主觀斷言詞(不寫「適合 / 值得 / score」),只做事實組合與工作關聯。從 2026-05-04 起為 daily default 區塊(feedback memory)。

對愛格/影像影片生成工作直接相關的 5 則

  1. AIDC-AI/Pixelle-Video(阿里) — 「AI 全自動短影片引擎」,直接命中愛格做完工開箱/案件影音的工作流。可克隆看其 pipeline 結構(首尾幀/場景切換/自動 BGM 配對是否可借鏡),跟既有 Kling AI 影片生成工作流 與 kling-arch-shot-orchestrator 比對。
  2. YouMind-OpenLab/awesome-nano-banana-pro-prompts(10K+ Gemini 圖像生成 prompt) — 既有 milktea-image-generator / modern-image-generator / nordic-image-generator 用的就是 Gemini Gem,這個 prompt 庫可整批轉成「室內設計風格 prompt 變體」素材,與 Gemini Gem 圖片生成系統 相容。
  3. huggingface/diffusers — topic 已加入 flux / qwen-image / image2video。意味著 Qwen-Image 已進主流 Python 生態,未來想做本地推理可直接整合,呼應 Qwen Image Edit 2511 工作流。
  4. vllm-project/vllm-omni — vLLM 為多模態(音訊/影像/影片)模型最佳化的推理框架,若要把生成搬到本地 GPU 跑是新選項。
  5. james-see/ltx-video-mac — Apple Silicon 原生 LTX-Video app,Mac 環境若要做本地短影片生成,是 Kling 雲端付費以外的選項。

跨筆觀察出的 3 個趨勢

Trend 1:ComfyUI 生態仍是影像生成中心

12 則 image_video 中 5 則跟 ComfyUI 有關(ComfyUI 本體、StabilityMatrix、SwarmUI、ComfyUI-Easy-Install、cherry-studio 也整合 ComfyUI)。這跟既有 SCAIL骨骼驅動跳舞工作流、Qwen Image Edit 2511 工作流、FLUX2 Klein 多圖編輯工作流 一致 — ComfyUI = 影像生成「IDE」級工具,新模型(Z-Image-Turbo、FLUX2、Qwen-Image)都優先在 ComfyUI 落地。

Trend 2:agent 框架光譜分化 — multi-agent / 個人助理 / skill collection 三條路線

12 則 agent_dev 中 2 則明確主打 multi-agent / swarm orchestration(ruvnet/ruflo 自稱「leading agent orchestration platform」、TauricResearch/TradingAgents 是「Multi-Agents Financial Trading Framework」);其餘多是 single-agent + skill collection 模式(hermes-agent 是 personal agent、super-agent-party 是 AI companion、ouroboros 主打「Agent OS」、Generative-Media-Skills 是多模態 skill 集)。對應到既有的 video-orchestrator / social-orchestrator 走的就是 ruflo 那條路線,而 Gemini Gem 圖片生成系統 則更接近 skill collection。

Trend 3:MCP 成為跨工具共通介面

今日入選 5 個 GitHub Search 命中 topic:mcp-server 的 repo:n8n-io/n8n(自動化平台)、google-gemini/gemini-cli(IDE/CLI 整合)、D4Vinci/Scrapling(web scraping)、ruvnet/ruflo(agent 編排)、upstash/context7(給 LLM 用的程式碼文件)。意義:MCP 已成為跨層共通介面 — 從 CLI / IDE → 自動化平台 → web 工具 → agent orchestration → 文件層都加 MCP 支援。對既有 Higgsfield MCP 圖片影片生成工具 的接入策略呼應:未來把外部服務(Higgsfield / Kling / ModelScope)整合進 Claude Code,走 MCP 比寫自己的 sub-agent 更省力。

中國方面的觀察

業界訊號

  • 36 氪「AI 大模型的『中文稅』」:模型 tokenizer 對中文不友好,同一句中文比英文耗更多 token。意義:用中文寫 Nancy 角色/劇本/提示詞時,API 計費實際比英文場景貴 2-3 倍。如果哪天用量大要省錢,可考慮把 prompt 結構轉英文(保留中文輸出),會明顯降本。
  • 36 氪「Anthropic 全是 AI 的閒魚群」:Anthropic 自己用 Claude 跑多 agent 經濟模擬實驗,看不同 LLM 在裡面互相議價。表示 multi-agent 經濟模擬是 Anthropic 的下一個研究方向。
  • 量子位「具身智能仿真框架開源」:機器人 + AI 領域的工具鏈在中國學界開源加速。

中國模型/工具

  • CowAgent(前 chatgpt-on-wechat,44K stars,今日 GitHub Search 入選)支援微信、飛書、釘釘、企微、QQ 接入 + 多 LLM 切換(DeepSeek / Claude / Gemini / MiniMax / Qwen / GLM 都通),是中文社群「多平台 IM 接入 + 多 LLM 抽象層」的代表作 — 客戶端整合層可參考。
  • cherry-studiosuper-agent-party 是中文社群「個人 AI 助理整合面板」方向,跟 social-orchestrator 是不同 use case,但 UI/UX 設計可參考。
  • ModelScope 上架的 4 個模型(aya-expanse / Molmo / granite / Phi-3.5)都是鏡像 Cohere / Allen AI / IBM / Microsoft 模型,不是中國新發。代表:ModelScope 也在做「中國牆內取得西方模型的官方鏡像」的工作。

1 個值得深入研究的方向

SamurAIGPT/Generative-Media-Skills(3.2K stars):明確定位是「給 Claude Code / Cursor / Gemini CLI 用的多模態圖像/影片/音訊 skill 集」,後端用 muapi.ai。現在的 kling-omni-generator / kling-video-generator / milktea-image-generator 是各自獨立 sub-agent,這個專案把整合層做成了「Claude Code skill」— 看一下它是怎麼打包的,可能省之後維護 sub-agent 拼裝的力氣。

結構性提醒

跨日要看「趨勢延續 vs 一次性新聞」的價值差異很大。今天 cross-day URL 去重 state 是空的,所以 ComfyUI / n8n / diffusers 這類「天天 push」的大型專案會一次性塞進報告。從明天起,這些只會在「主版號 / 重大功能 release」時冒出來(因為 URL 一樣會被去重,只有新文章才會新出現)。要看「今天比昨天多了什麼」這種訊號,建議跑滿 3-5 天再回來看 — 那時候才看得出真正的新動態。


蒐集統計

Source抓到cap 前入選備註
Hacker News47474 大類分散,多數進 misc 後被 cap drop
TechCrunch AI33今日量小(feed 只回 3 則 AI tag 文)
HuggingFace Papers30255 則超出 7 天 window
Anthropic81多數 > 7 天 window
OpenAI1385 則超出 window
GitHub Trending76全語言版,AI 關鍵字過濾
GitHub Search2525新 — 用 6 個 topic(image/video gen + agent + mcp)查 API
量子位 (qbitai)42新 — 中文 AI 媒體 RSS
36 氪 AI108新 — 中文商業科技媒體
ModelScope66新 — 中國 AI 模型平台(魔搭)
合計153131cap 後共 45 則

跳過原因

  • 跨日重複:0 則(state 為空,重置測試跑)
  • 同次重複:1 則(不同 source 抓到同一 URL)
  • 超出 7 天 window:17 則
  • 內容太薄(< 30 字):4 則(多為 ModelScope 標題短的條目)
  • 缺 URL / 標題:0 則
  • 主 bucket 已滿(cap drop):image_video 4 / agent_dev 7 / model_release 5 / industry 0 / misc 56

已知限制與下次調整方向

  • misc 仍有 HN search 誤抓(Tesla / Milei / Spirit Air 等):HN Algolia query 太寬。下次調整:HN scraper 過 misc 前再做一次「title 必須含 AI / LLM / model 名」的二次過濾。
  • ModelScope last_modified 排序混到中國 lab 帳號鏡像他人模型(aya / Molmo / granite / Phi-3.5):這些是 AI-ModelScope 帳號上架其他公司模型的中國版本鏡像,不是新發表。下次調整:filter 掉 created_atlast_modified 差距 > 30 天的條目(純鏡像更新,不是新模型)。
  • OpenAI title 從 slug 推導:可讀性差,待 OpenAI 不再 403 才能改善。
  • GitHub Search 大型 repo 每天都會 push(n8n、ComfyUI、diffusers):每天都會抓到 — 跨日 URL 去重會擋掉,但首次跑時會佔位。
  • Hacker News 抓 47 但只入選 5(model_release 1、industry 2、misc 5 之中):cap drop 56 多數是 HN 的低分非 AI 文。

來源覆蓋率

中國 AI 來源(你今天加的需求):

  • 中文媒體:qbitai 入選 2、36kr 入選 8 = 10 則
  • ModelScope:cap 前入選 6、cap 後實際進報告 4 則(aya-expanse、Molmo、granite、Phi-3.5;皆為阿里 AI-ModelScope 帳號鏡像非中國模型)
  • 中國團隊 GitHub repo:CowAgent、AIDC-AI/Pixelle-Video、heshengtao/super-agent-party、CherryHQ/cherry-studio = 4 則

合計 18 則 / 45 ≈ 40% 與中國 AI 直接相關(其中 ModelScope 部分是「中國平台鏡像他國模型」,非中國原創發表)。

事實檢查 diff log

本日是 ai-news-orchestrator 加入第 4.6 步「5 項硬性事實自檢」的最後一份報告(人工寫分析)。下方為回溯紀錄 — 寫完分析後使用者要求重新核對,發現的問題與修復對應 AI每日分析事實檢查陷阱。從 2026-05-05 起自檢內建在 playbook 中。

自檢項check 數發現問題修復
1. 存在性 grep(每個 repo/paper 名)~203移除:Kimi K2.6(TL;DR 與中國子段,HN 重跑沒命中);Ableton Live MCP(被 cap drop);czlonkowski/n8n-mcp(不在 jsonl)
2. 計數驗證(N/M 聲明)31Trend 2 寫「12 則 agent_dev 過半是 multi-agent」→ 改「12 則中 2 則明確是 multi-agent(ruflo + TradingAgents);其餘多是 single agent + skill collection」
3. cap 前/後 標註21來源覆蓋率「ModelScope 6 則」→ 改「cap 前 6、cap 後實際進報告 4 則」
4. 列舉去重41中國 lab GitHub repo 列表 Pixelle-Video 出現 2 次 → 去重後 4 個 unique(CowAgent / Pixelle-Video / super-agent-party / cherry-studio)
5. wikilink 語意對應71Trend 2 把 multi-agent 趨勢連回 Nancy故事腳本生成流程(實際是單流程)→ 改連 Gemini Gem 圖片生成系統(屬 skill collection 模式)

新踩陷阱(concept 頁未涵蓋)

寫分析過程中也踩到一個 5 項自檢沒覆蓋的類型,已加進 concept 頁:

  • 陷阱 7(國籍/來源歸屬不確定但寫成事實):TL;DR 把「TauricResearch TradingAgents」歸入「中國方面 入榜」 — 但 Tauric Research 國籍不明(看起來是 ML research lab,未必是中國)。已加進 AI每日分析事實檢查陷阱 第 7 條。

累積改善計數

  • ai-news pipeline 啟用日:2026-05-04
  • 第 4.6 步事實自檢啟用日:2026-05-04(本日為回溯記錄,從明日起內建跑)
  • 已記錄陷阱類型總數:7(本日新增 1 條:國籍歸屬不確定)
  • 本日修正錯誤:5 項自檢共 7 處 + 1 項新陷阱補進 concept