克雷西 魚羊 發自 凹非寺。字節
量子位 | 大眾號 QbitAI。敞開
字節跳動版ChatGPT,免費pg電子·(中國)娛樂官方網站現在人人可玩了!無排
網頁版、隊抖安卓版和iOS版同步上線,音號用抖音賬號、手機手機號和蘋果賬號都能登錄。號直
而且無需排隊,接登翻開就能和這個名叫“。字節豆包。敞開”的免費AI幫手直接開聊。
是doubao.com不是douban.com哦~。
音訊一出,隊抖現已有不少胖友第一時間前往圍(tiao)觀(xi)。音號
咱們也抓住實測了一波~。
與ChatGLM難分伯仲。
先來看看豆包是怎樣介紹自己的:
既然如此,咱們就來試試這些“官方功用”靠不靠譜。
比方,pg電子·(中國)娛樂官方網站咱們挑選了幾個有意思的過錯機翻讓豆包糾正,成果豆包給出的反應還挺不錯的:
尤其是“鴛鴦鍋”的翻譯,能夠說是完勝Google和DeepL。
常識方面的話,當然要問一下“刁鉆”的問題了:雷公電母放出的電是直流電仍是交流電。
豆包的這個答復,能夠歸納成“不是直流電,而是直流電”,但前面說的還算能夠吧。
拋開整活的話,豆包的開胃小菜確實給了咱們一個不錯的第一印象。
那么下面咱們就上正餐——來拿它和備受好評的國產開源大模型ChatGLM進行一場大橫評。
詳細的內容包含。案牘創造、邏輯推理、數學和代碼。四個方面。
案牘創造方面,豆包說自己會編撰知乎、小紅書等各種風格的案牘。
咱們無妨整個奇葩點的東西,看看它能不能創造得出來,比方……豆漿美式的小紅書筆記。
案牘搭配著emoji,連Tag都有了,看來豆包真的是懂小紅書的。
不過你確認“醇香甜美”這個詞是用來描述豆漿的嗎……。
ChatGLM盡管寫了許多,可是沒審清題,把豆漿直接當成了豆漿……。
(這么一看,豆包或許也了解成豆漿了,可是人家沒直接說成豆漿?。?。
看來豆包是有必定創造才能的,所以無妨再加大難度。
直接讓他給“豆漿美式”的宣傳片寫個短視頻腳本。
ChatGLM的版別細節則要豐厚些,不過豆包的版別也算是五臟俱全了。
兩者的案牘創造水平平起平坐,那么邏輯推理才能又怎樣樣呢?
咱們找來了一道推理標題,這道題兩位選手都沒能做對(正確答案是甲3乙1丙2):
盡管都沒做對,可是豆包的思路好像在往正確的方向上走了。
而ChatGLM的答復,橫豎我是沒看懂。
這一環節對兩者的體現也是很難點評,那么,立刻進入一種大模型的噩夢環節——數學。
簡略如雞兔同籠這樣的問題就意外了,咱們直接上難度,拿一道高考題給他們試試。
△2023北京卷第16題。
(圖片咱們沒有輸入,但沒有圖片也能解題;第一問是證明,咱們也去掉了)。
豆包運用的是純幾許方法,最終的答案是正確的,但很惋惜進程不對。
△從紅框開端呈現過錯。
ChatGLM則運用了向量解法:
首要成果是錯的,不過120卻是和60度互補,是出了些小問題嗎?
但咱們很快發現了華點:
這兒不應該約等于就先不提了……兩個正數相除你是怎樣給約成個負數的……。
標準答案是醬嬸兒的,因為第二問要用到第一問的證明定論,所以把第一問的進程也放上來了:
如此看來,在數學修煉上,兩位大模型選手都還有很大的前進空間。
那么面臨咱們膾炙人口的代碼問題,豆包又該怎么應對呢?
先看比較根底的冒泡排序算法。
咱們試著跑了一下(換掉了預設的數字),成果成功輸出了答案:
接下來上LeetCode,咱們先選了一個比較簡略的。把阿拉伯數字轉換成羅馬數字。的標題。
豆包很快就生成了一段代碼,還順便了解說:
而ChatGLM給出的代碼是這樣的(也附有解說):
運轉的成果是豆包正確,ChatGLM過錯:
不過略微雜亂一些的標題,他們就都做不對了。
除了規劃算法,咱們還想看看他們能不能用代碼“畫圖”。
咱們隨機生成了兩列數據,看看能不能搞個折線圖出來:
成果用豆包的代碼畫出了這么個東西……。
ChatGLM這邊的狀況嘛……好家伙,直接報錯運轉不了。
代碼環節就先展現到這兒了,用一句話說便是:都還得練。
看了這么多,想必讀者朋友們現已有些累了,所以咱們還預備了“餐后甜點”,來點輕松的內容。
弱智吧,開整!
Q1:蘿卜究竟能不能“開胃”呢?
“必要時尋求專業醫師協助”,這難道是在自己給自己做手術嗎……。
Q2:導盲犬制止入內,是給瞎子看得,仍是給導盲犬看的?
豆包在A和B兩個選項傍邊挑選了C。
而問及“隕石為什么總砸中隕石坑”,豆包卻是說對了,只不過答復得有點雜亂。
弱智吧的測評成果總結下來便是:AI仍是太單純,還沒方法了解人類雜亂的小心思。
字節跳動大模型開端發力。
字節跳動選在這時分敞開“豆包”測驗,好像有些令人意外。
但實際上,這個時間線倒推起來也不是無跡可尋:
在ChatGPT掀起狂瀾的本年二三月,字節跳動就已有組成大模型團隊的音訊傳出。
據36kr音訊,其探究方向主要是語言和圖畫兩類大模型,期望能將大模型與字節自身的查找、廣告等下流事務相結合。
但在其時,字節方面相關技能負責人的回應是:
技能中臺在這些范疇有探究,還很初期,不成熟。
爾后的“百模大戰”之中,字節跳動好像并沒有正式參戰的意思,旗下云渠道火山引擎,打出的也是“為大模型打造技能底座”、接入第三方大模型做大模型旗艦店商城的旗幟。
直到6月份,字節跳動被曝開端內部測驗一款AI對話類產品,代號“Grace”。
而Grace的網址“gracebot.cn”,現在會直接跳轉到豆包官網。
盡管豆包本包并不供認自己便是Grace,但現在看來,豆包便是Grace的敞開測驗版別。
別的,“豆包”項目組的朋友向咱們泄漏,豆包尚處于前期開發驗證階段。測驗期還存在較多限制,生成的內容也或許不精確,歡迎測驗用戶們多提意見多反應。
值得重視的是,最近,一個名叫BuboGPT的多模態大模型,在huggingface上上線了Demo。這一大模型背面相同有來自字節跳動的技能參加。
論文介紹,BuboGPT支撐文本、圖畫、音頻三種模態,能做到細粒度的多模態聯合了解。
比方給它這樣一張圖片:
BuboGPT不僅能識別出青蛙和青蛙手里的班卓琴,還能總結出青蛙的詳細動作、所在環境。
One More Thing。
字節跳動總算出手,那么豆包這體現你給打幾分?
話說回來,就在大模型逐漸走出每周都有新模發布的瘋狂期,國產大模型的先行者們,答復質量現已悄然前進了不少。
比方最初難倒眾多大模型英雄漢的“爸媽婚禮不帶我”問題,現在許多國產大模型都能答復得有理有據。
△上百度下訊飛。
國產大模型的評判標尺,或許也已到了再上一個臺階的時分。
所以,國產大模型百家爭鳴,是否也給到你新的驚喜了呢?歡迎在談論區與咱們共享~。