当地时间2月27日,OpenAI正式发布了最新模型GPT-4.5的研究预览版。这款通用型大语言模型虽非OpenAI的顶尖之作,但却以其“情商最高”的特点备受瞩目,且API调用价格高于其主流模型GPT-4o。
据OpenAI方面介绍,GPT-4.5是该公司迄今为止规模最大、知识储备最丰富的模型之一。它拥有高达1万亿的激活参数,训练数据量更是达到了惊人的120万亿tokens,上下文窗口长度也扩展至了256K11。
与OpenAI的主流模型相比,GPT-4.5的最大亮点在于其“感性能力”的显著提升。它能够进行更加自然、温暖的对话,甚至在回答问题时也能展现出一定的“人情味”。例如,当用户表示被放鸽子想要发“恨他们”的短信时,GPT-4.5会先输出安抚情绪的内容,再给出合理建议。而在面对“我考试失败了,心情很低落”这类输入时,之前的模型会立刻尝试解决问题,而GPT-4.5则会先询问用户是否想聊聊感受,或提供分散注意力的方法,展现出更高的情感智能。这使得它更适合处理与情感交流、写作辅助(如优化内容、激发创意)、客户服务等相关任务。
此外,新模型的“幻觉率”(即错误生成虚假信息的概率)也低于GPT-4o和o1模型,仅为37.1%,而GPT-4的幻觉率则为61.8%。然而,在一些基准测试中,GPT-4.5并未达到行业最前沿水平。如在编程能力的SWE-Bench Verified基准测试中,它与GPT-4o和o3-mini表现相当,逊色于OpenAI的deep research和Anthropic的Claude 3.7 Sonnet。在学术基准测试AIME和GPQA上,GPT-4.5也不及领先的AI推理模型,如o3-mini、DeepSeek的R1和Claude 3.7 Sonnet。不过,在数学和科学相关问题上,GPT-4.5相比其他非推理模型仍有不错的表现。
值得一提的是,OpenAI此前推出的o1等属于推理模型,能生成“思维链”,在处理问题前先进行反思。而GPT-4.5则是该公司最后一款“非链式思维”模型,未来将作为推理模型的基础,标志着OpenAI在人工智能技术发展上的一个重要过渡。
在功能上,GPT-4.5支持搜索、画布模式,用户可以上传文件和图像,但目前暂不支持语音模式、视频和屏幕共享等多模态功能。
目前,GPT-4.5首先开放给软件开发者以及ChatGPT Pro(每月200美元)订阅用户,未来也将向ChatGPT Plus(每月20美元)和Team订阅用户开放。不过,其定价为每百万token输出150美元,远高于GPT-4o的60美元。
随着OpenAI模型发布节奏的不断加快,它也面临着来自Anthropic、xAI等竞争对手的激烈挑战。前不久,由OpenAI前员工创立的Anthropic发布了Claude 3.7 Sonnet,马斯克的xAI则推出了Grok 3。在中国市场,DeepSeek等本土企业的崛起也给OpenAI带来了一定的技术压力。这些都促使OpenAI不断优化和拓展应用场景,以保持其在人工智能领域的领先地位。