AI新浪潮觀察
6min read
長了眼睛和嘴,長眼ChatGPT 開始入侵物理世界
連然2023/09/26
摘要
向著「賈維斯」堅定前行。
作者 | 連冉
編輯 | 靖宇
OpenAI,開始pg娛樂電子游戲官網又悄咪咪地放大招了。入侵
當地時間 9 月 25 日,物理OpenAI 在官網更新博客,世界宣布 ChatGPT 已經具備看、長眼聽、睛和說的開始能力。這是入侵 GPT-4 大型語言模型推出以來最大的一次功能更新。從官方放出的物理應用案例來看,通過手機攝像頭和麥克風,世界ChatGPT 現在已經能幫助人們解決實際問題。長眼例如用手機拍一下共享單車的睛和照片,并且詢問人工智能助手如何調節座椅,開始ChatGPT 就可以看懂圖片,并且給出相應步驟。pg娛樂電子游戲官網隨著技術的快速迭代,生成式 AI 競賽正在進入了一個全新的階段——多模態之爭。在這個階段,各大科技公司紛紛推出了一系列新產品和功能,通過人工智能技術打破傳統搜索引擎和聊天機器人的局限性的同時,也為用戶帶來更加豐富和精準的交互體驗。那么,「升級」了的 ChatGPT,是否能成為「賈維斯」一樣的AI助理,幫助人們打點生活了而 OpenAI 又是怎么做到的?
01
ChatGPT
長了眼睛和嘴巴
生成式 AI 競賽的下一個階段正在來臨——多模態之爭。最近,Meta 推出了 AudioCraft,用于通過 AI 生成音樂;谷歌 Bard 和微軟 Bing 的聊天體驗也已部署了多模態功能;亞馬遜也在借助 LLM 的力量來增強其 Alexa 數字助理(為 Echo 系列智能設備提供支持)的功能,9 月 25 日剛剛宣布斥資 40 億美元投資 OpenAI 的競爭對手 Anthropic,后者是 Claude 2 聊天機器人的制造商;蘋果也在試驗通過 AI 生成語音,即 Personal Voice。而在上周發布支持文本和排版生成的最新圖像生成模型 DALL-E 3 之后,當地時間周一晚,OpenAI 發布了《ChatGPT 現在能看、能聽、能說了》的公告,宣布對 ChatGPT 進行重大更新,使其 GPT-3.5 和 GPT-4 人工智能模型能夠分析圖像,并作為文本對話的一部分對圖像做出反應。此外,ChatGPT 移動應用程序還將增加語音合成選項,與現有的語音識別功能搭配使用時,將實現與人工智能助手的完全語言對話。根據官網,ChatGPT 現在已經具備了如下功能:
語音功能
OpenAI 在公告中稱語音功能由一個新的文本轉語音模型(text to speech)驅動,只需要文本和幾秒的語音樣本就可以生成類似人聲的音頻。一方面,OpenAI 與專業配音演員合作創建了語音條,另一方面,OpenAI 還使用了自己開源的語音識別系統 Whisper,可以將用戶的語音轉錄為文字。ChatGPT 已經有了語音交互能力|OpenAI該功能推出后,用戶可以在應用的設置中選擇語音對話,然后從「Juniper」、「Sky」、「Cove」、「Ember」和「Breeze」等五種不同的合成聲音中選擇一個,說出他們想要的內容,機器人就會使用所選的語音提供答案。例如,人們可以詢問睡前故事,或者就餐桌上正在進行的談話提出問題。不過,語音對話功能的使用可能面臨有一些限制。OpenAI 表示,該模型在轉錄英文文本方面表現出色,但在一些其他語言,特別是使用非羅馬字母的語言中表現不佳。因此,建議非英語用戶使用 ChatGPT 來進行此類用途時要慎重。
圖像理解
OpenAI 表示,ChatGPT 中的新圖像識別功能允許用戶上傳一張或多張圖像,使用 GPT-3.5 或 GPT-4 模型進行對話。這些模型將其語言推理技能應用于各種圖像,如照片、截圖和同時包含文本和圖像的文檔,人們只需點擊一張圖片,將其添加到聊天中,并提出潛在的問題,ChatGPT 就會根據所附文本分析圖片,并給出答案。它甚至可以圍繞該主題進行前后對話。按照 OpenAI 的說法,用戶可以上傳某物的圖片并詢問 ChatGPT 相關問題——比如在旅行時拍一張地標的照片,讓 ChatGPT 來講述景點的有趣之處;拍下冰箱和食品儲藏室的照片,找出晚餐要吃什么 (還可以問一些后續問題,以獲得進一步的食譜)。(視頻)
在官方提供的示例中,一張自行車的照片上傳到 ChatGPT 界面,之后詢問后者如何將座位調低。ChatGPT 首先詢問了自行車的型號,因為座位的調整方式因車型而異。它詳細解釋了不同車型可能采用的快拆桿或螺栓的區別,并提供了相應的步驟。然后,官方制造了一點混淆,拍攝了一張螺栓的照片,并在圖中用官方的畫圖工具突出顯示,試圖讓 ChatGPT 分辨是螺栓還是快拆桿。ChatGPT 很快指出圖中所示的是螺栓,并建議用戶尋找內六角扳手來解決問題接著,官方拍攝了一張工具箱的照片,向 ChatGPT 詢問到底是哪一個扳手。ChatGPT 再次表現準確識別出所需的扳手,并清晰地指導用戶選擇正確的尺寸。這個示例清楚地展示了 ChatGPT 在解決實際問題時的實用性和智能響應。在去年 3 月 GPT-4 發布時,OpenAI 就已展示了該模型解析文本和圖像的初步能力,很快,這些能力將成為 ChatGPT 使用中更常見的存在。OpenAI 將在未來兩周時間里向為 Plus 和企業用戶推出上述功能。用戶可以在 iOS 和 Android 使用 ChatGPT 的語音合成功能,圖像識別功能則在網頁和 App 端均可用。
02
能力越大,責任越大
在 ChatGPT 發布近一年來,OpenAI 對其底層模型和界面進行了多次更新。而任何生成式 AI 的進步都需要考慮嚴肅的倫理和隱私問題。OpenAI 在公告中聲稱其目標是開發安全且有益的通用人工智能,「我們相信,逐步提供我們的工具,可以讓我們隨著時間的推移不斷改進和完善風險緩解措施,同時也讓大家為未來更強大的系統做好準備。對于涉及語音和視覺的高級模型來說,這一策略越來越更加重要?!巩吘?,新語音技術能夠僅從幾秒的真實語音中創造逼真的合成語音,這為創造性應用打開大門的同時,也帶來了新的風險,比如惡意冒充公眾人物或進行詐騙等。為降低音頻深度偽造的風險,OpenAI 表示它已將語音合成功能的使用范圍限制在語音聊天和某些已獲批準的合作伙伴關系中。其中包括與流媒體公司 Spotify 的合作——Spotify 正在使用其背后的技術為平臺上的播客翻譯不同語言的內容。Spotify 個性化副總裁齊亞德-蘇丹(Ziad Sultan)在一份新聞稿中說:「通過與創作者本人的聲音相匹配,語音翻譯讓世界各地的聽眾能夠以前所未有的真實方式發現新的播客,并從中獲得靈感?!雇瑯?,為了避免圖像識別帶來的隱私和準確性問題,OpenAI 還限制了機器人對輸入圖像中出現的人進行分析和直接陳述的能力,其表示已經「采取了技術措施,以限制 ChatGPT 分析和直接陳述個人信息的能力,系統還是應當尊重個人隱私」,但是真正的惡意利用情況還是要在它面向公眾推出后才能知道。這次 ChatGPT 推出的語音交互和圖像識別功能,為聊天機器人帶來了更強的實用性,讓它們從簡單的文本處理工具更貼近真實生活。同時,這似乎也預示著未來 AI 系統的發展方向——不僅要理解抽象的文字世界,還要能感知復雜的語音和圖像信息,甚至是物理世界,從而真正進階達到人機交互的境界。
*頭圖來源:OpenAI本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO
OpenAIChatGPT
下一篇:今年青島已新啟動城中村改造項目13個,66個續建項目穩步推進
上一篇:華為放大招!余承東:新車將高能登場!曾稱其超越特斯拉……