OpenAI đã phát hành mẫu GPT-4o hàng đầu mới nhất của mình, có thể suy ra âm thanh, hình ảnh và văn bản trong thời gian thực. Ý tưởng chính là một trợ lý tương tác giọng nói cá nhân có tính chất siêu nhiên, có độ trễ cực thấp. Theo thông tin trên trang web chính thức của OpenAI và tài khoản chính thức của Tạo ra bất kỳ sự kết hợp nào giữa đầu ra văn bản, âm thanh và hình ảnh. Nó có thể phản hồi âm thanh đầu vào trong 232 mili giây, trung bình là 320 mili giây, tương tự như thời gian phản ứng của con người trong cuộc trò chuyện. Nó hoạt động ngang bằng với GPT-4 Turbo bằng tiếng Anh và mã, với những cải tiến đáng kể đối với văn bản không phải tiếng Anh, đồng thời có API nhanh hơn và rẻ hơn 50%. GPT-4o hoạt động đặc biệt tốt trong khả năng hiểu hình ảnh và âm thanh so với các mẫu hiện có. Tính năng nhập văn bản và hình ảnh hiện đang được triển khai cho API và ChatGPT, tính năng nhập bằng giọng nói và video sẽ ra mắt trong những tuần tới.