用过 OpenAI 视觉 API 的开发者都被惊艳到了。

相关代码:https://github.com/ggoonnzzaallo/llm_experiments/blob/main/narrator.ipynb

提取视频帧; 构建描述提示; 发送 GPT 请求; 制作语音解说提示; 生成语音解说脚本; 将脚本转换为音频; 将音频与视频结合。



国内创业公司开发的具身智能机器人(参见《独家 | 达摩院后的下一站:陈俊波推出具身智能大模型,要给所有机器人做一颗脑袋》)
