2023年9月26日星期二

ChatGPT又迎來大升級，這次是“多模態”，能開口說話，識別物體。

當地時間週一，OpenAI宣佈，將在ChatGPT推出新的語音和圖像功能，新功能將於未來兩週內面向Plus和企業用戶推出。

OpenAI介紹稱，ChatGPT推出的語音和圖像功能提供了一種新的、更直觀的界面，允許用戶進行語音對話或向ChatGPT顯示用戶正在談論的內容。新功能可以給用戶提供在生活中使用ChatGPT的更多方式：

1）用戶可以在旅行時拍下一張地標的照片，並就它的有趣之處與ChatGPT進行現場對話；
2）當用戶在家時，拍下冰箱和餐具室的照片，ChatGPT可以給出晚餐食譜；
3）如果用戶在幫自己的孩子做一道數學題，拍張照片，圈出題集，ChatGPT會給出提示。

新功能有哪些用途？

據OpenAI介紹，語音輸入功能類似於手機上的語音助手，用戶只需按下一個按鈕，說出自己的問題，ChatGPT 就會將其轉換爲文本，然後生成答案，再將答案轉換爲語音，播放給用戶。

OpenAI 還開發了一種新的文本轉語音模型，可以根據幾秒鐘的樣本語音，生成與之相似的人聲。用戶可以從五種選項中選擇 ChatGPT 的聲音，而且這種模型還有更多的潛在用途，包括將播客翻譯成其他語言，同時保留播客主持人的聲音。

OpenAI表示，它與配音演員合作，共同構建了該功能的文本到語音AI模型。

圖像輸入功能則類似於 Google Lens，用戶可以拍攝自己感興趣的事物，並上傳到 ChatGPT 中。ChatGPT會嘗試識別用戶想要詢問的內容，並給出相應的回答。用戶還可以用應用中的繪圖工具來幫助表達自己的問題，或者配合語音或文本輸入來進行交流。

OpenAI給出的例子是，用戶拍了一張自行車的圖片，詢問ChatGPT如何調低座椅，根據用戶的提問，ChatGPT很快識別出車座調節類型和需要的工具。

隨後，用戶又詢問其工具箱中哪個是所需的工具，ChatGPT也是成功識別，並提示用戶需要拿哪一個尺寸。

可以看出，ChatGPT的功能越來越強大，非常智能。此前，OpenAI首席執行官Sam Altman和比爾·蓋茨都曾對ChatGPT未來的應用前景進行設想。

Altman曾私下告訴開發者，希望將ChatGPT打造成“超級智能個人工作助理”，可以根據個人及工作需求執行多種任務，如按照用戶的風格起草郵件或文件，提供相關業務的最新信息。

蓋茨也曾表示，技術競賽將推動頂級AI助理的誕生，顛覆現有生產力，可能會從根本上改變用戶的行爲，乃至取代搜索和購物網站。

不過，ChatGPT也提示，這些功能也帶來了新的風險，例如惡意行爲者可能冒充公衆人物或實施欺詐。

編輯/ruby