停靠站

首页 > 产品中心 > 停靠站

惊掉下巴：GPT-4o现场爆改代码看图导航！OpenAI曝光LLM路线图GPT Next年底发

来源：米兰棋牌发布时间：2024-11-29 17:08:25

这几天，在巴黎举办的最大科技活动VivaTech上，OpenAI再次带来了许多惊喜。

从展示的模型智能进化路线图中，能确定的是，今年OpenAI一定会发布新一代旗舰模型。

而且，大概率不会以GPT-5命名，演示中将其称之为「GPT Next」。

即便在打招呼过程中，Huet也可以每时每刻打断对话，与人类真正交流互动的方式几乎无异。

另外，Huet还让GPT-4o实时将英语翻译成法语，引得台下公众一阵鼓掌欢呼。

更让人惊掉下巴的是，Huet打开摄像头，向GPT-4o展示了一张凯旋门和巴黎铁塔的草图，它准确识别出巴黎的标志性地标。

没想到，ChatGPT不假思索地提供了详细的火车路线，而且包括换乘和停靠站的具体信息。

先来看看最新的第二趴，Huet主要强调了旗舰模型GPT-4o的三个重点。

首先它是「多模态」的，就没有延迟，堪称为一个真正的「全能模型」（omni model）。

其次，在大模型竞技场中，经过盲测后的GPT-4o，取得了最新的SOTA。

最后，GPT-4o的API价格还是GPT-4 Turbo的一半，而速率极大的提升的2倍。

作为ChatGPT的基操，读代码、debug这个环节也是必不可少的。Huet本人也做了现场直播演示，让GPT-4o加持的ChatGPT Mac版去修复bug。

代码是一个名为Discover的React组件，它渲染一个Discover卡片组件网格，每个卡片的数据从trips.json文件中获取。

然后，Huet将自己的屏幕分享给ChatGPT，并询问能否让这个页面更具响应性。

你可以使用Tailwind CSS的响应式设计功能，根据屏幕大小调整网格中的列数。这是修改网格布局的快速方法。Div的颜色和布局方案，设置网格列数为1，从0到4列。

不过，Huet表示，其实我就是在使用Tailwind去处理，继续问道，「那么你能告诉我属性是什么吗」？

ChatGPT答道，「对于Tailwind，你能调整网格响应列，以使网格响应」。

以下是设置方法：网格列数将根据当前屏幕大小来控制。所以你不需要太多列来填充网格，这是大多数响应设计的经验法则。默认情况下设置1列，小屏幕设置2列.

Huet表示，「我明白了。所以我应该在小屏幕上设置一列，对吗？然后随着屏幕变大，增加列数」？

ChatGPT确认道，「没错。你能够准确的通过不同的屏幕尺寸调整列数。例如，默认情况下设置一列，sm:-grid-cols-2设置小屏幕及更大屏幕为两列，md:-grid-cols-3设置中等屏幕及更大屏幕为三列，等等」。

这些演示，向所有人展示了GPT-4o相较于以往模型，展现出的强大能力，能够在编码问题上实时查看屏幕，帮你解决问题。

首先是准备工作——输入Prompt，坐等Sora把视频生成出来，再配上背景音，一段「巴黎之旅」的视频就做好了。

你是位历史教授。你将看到一系列连续的图片，它们是一部历史纪录片的一部分。你的任务是用一种引人入胜且富有信息性的方式描述画面中的场景。

请将脚本分为2-4个小段落。不要添加任何前缀或描述，仅包括要讲述的文字。

如果想让视频更生动，则能更加进一步利用OpenAI的「Voice Engine」模型（语音引擎）把之前的文字介绍变成真人配音。

我非常高兴自己站在VivaTech的舞台上，并见到了一些非常棒的创始人和开发者。我很期待向他们展示一些现场demo，以及如何真正地将OpenAI的技术和模型应用到他们自己的产品和业务中。

然后ChatGPT基于Huet的语音内容，然后为Sora预先生成的一段巴黎历史介绍视频，进行了「原声」配音。

这时，不但可以用音频源语言，还可以再一次进行选择法语、西班牙语、日语等多种语言，而且音色保持不变。

网友称，「OpenAI这个案例向我们展示了，将Sora视频发送给ChatGPT获取脚本，并利用「语音引擎」为其配音，最后将所有模态内容整合到一起」。

目前，GPT-4、GPT-4o虽是全球最优秀的模型，但它们更像是一到二年级的学生，时不时会犯错误。

Huet继续称，今年OpenAI将计划在下一代模型上更好地推动这一界限，并提供像逐步函数一样的推理改进。

与此同时，OpenAI还希望确保当开发者想要扩展时，可提供不同的模型来满足所有的需求。

在一些真实的工作流中，部分子流程，在大多数情况下要更小参数规模的模型，或者对延迟更敏感的模型。

第二个投资领域的最后一部分，OpenAI也是希望可以帮助开发者，运行异步工作负载。

比如，几周前，推出的批处理API。这是一种很方便快捷的方式，可以将你的所有请求批量发送到OpenAI。

在未来，不同的组织可能有不同的工作方式，更需要一个可以进一步探索自身业务的模型。因此，OpenAI未来将会提供一系列微调的产品，包括简单微调API、提供团队帮助，以及让OpenAI为其训练模型。

这里，Huet举了两个和OpenAI合作的公司，Harvey和SK telecom。

「我非常确信，在未来，智能体可能是软件，以及我们与计算机交互方式发生的最大变化」。

现场，Huet还引用了美国著名程序员Paul Graham曾说过的话。

通常，28岁的程序员比22岁的程序员更具生产力，因为他们拥有更多的经验。但显然，22岁的程序员现在和28岁的程序员一样优秀，因为他们使用Al时更得心应手。

Huet通过举例Devin在实际中帮助开发者解决代码问题，以及其他案例，去说明智能体真的是当今重要的应用之一。

一开始，他再次重申了，「我们是一家研究型公司，OpenAI的使命是打造有益于全人类的AGI」。

而目前，全球已经有超300万开发者使用OpenAI API正创造一些有趣的事情。

92%的财富500强让ChatGPT加入工作流，而还有1亿的活跃用户，开发者们已经打造了300万GPTs。

其实，ChatGPT之前，OpenAI早在2020年打造了GPT-3模型，并为开发者提供了尝试利用LLM去构建应用的体验。

可以看到，GPT-3的用例已经很广泛，包括编程助手、代码审查、搜索和信息检索、内容创造等等。

新模型可以开创尽可能多的无限想象，从GPT-3的8个用例到GPT-4的13个用例，几乎实现了翻倍增长。

它不仅推理能力得到了大幅度的提高，还可以像人类一样，利用「工具」完成多项任务。

如今，这些能力已得到许多公司的采用，比如下图中右侧Spotify为用户创建的独特的清晨播放列表。

OpenAI在上周推出的GPT-4o，就像一个魔法层，给GPT-4用例加满buff。

得益于实时跨音频、文本、视觉的能力，GPT-4o能够让我们以前所未有的方式来进行交互。

站在OpenAI巨人的肩膀上，众多初创公司已在客户服务、知识助手、语音服务、内容生成、智能体领域挖掘出的应用，遍地开花。

演讲最后，Huet表示，我们的目标不是让你在OpenAI身上花更多的钱，而是用OpenAI建造更多。

上一篇:无我国铁路成果新高峰立异开展引领未来下一篇：这7条公交线路有调整

产品中心

联系我们

米兰棋牌

联系人：董经理

电话：400-114-7977

手机：159 9670 7977

邮箱：1004533951@qq.com

地址：江苏省宿迁市苏宿工业园区栖霞山路22号

欢迎来电咨询：400-114-7977 地址：宿迁市宿城区栖霞山路22号

手机端打开

微信客服

停靠站

惊掉下巴：GPT-4o现场爆改代码看图导航！OpenAI曝光LLM路线图GPT Next年底发

最新发布

产品中心

联系我们