對標(biāo)GPT-4o!不鎖區(qū)、支持手機、免費使用,Moshi來啦!
激石Pepperstone(http://hppnl.com/)報道:
7月4日凌晨,法國知名開源AI研究實驗室Kyutai在官網(wǎng)發(fā)布了,具備看、聽、說多模態(tài)大模型——Moshi。
Moshi功能與OpenAI在5月14日展示的最新模型GPT-4o差不多,可以聽取人的語音提問后進行實時推理回答內(nèi)容。但GPT-4o的語音模式要在秋天才能全面開放使用,而Moshi已經(jīng)提供使用了。
「AIGC開放社區(qū)」已經(jīng)親自測試,Moshi不鎖區(qū),填寫一個郵箱地址就能直接使用,無需任何等待。值得一提的是,Moshi是支持手機移動端使用的,只不過對普通話支持較差,最好使用英語提問。
此外,Kyutai可能很快就會開源Moshi,公布代碼、模型權(quán)重和論文。
Moshi的使用流程非常簡單,1)登錄
2)填寫一個郵箱地址,然后點擊join。如果是手機登錄,系統(tǒng)會提示使用你的麥克風(fēng),因為這個產(chǎn)品對語音是一個硬性要求。如果你是PC端使用,也必須有麥克風(fēng),不然沒法使用。
「AIGC開放社區(qū)」的真實使用過程
3)開始語音輸入,你想提問的內(nèi)容就行了。
下面這個是官方展示的案例,根據(jù)多輪語音連續(xù)對話,主要讓Moshi用法語來一首關(guān)于巴黎的詩;接著用竊竊私語的方式描述一個神秘故事。
Moshi完成的很出色,其擬人化語氣是一大特點機器味很少,這一點和GPT-4o有點像。
這個是模擬星際戰(zhàn)艦指揮官與航程的故事,主要詢問了一些到達目標(biāo)航程,周圍環(huán)境等內(nèi)容。(由于聽譯的可能理解的不太全~~)
「AIGC開放社區(qū)」也體驗了一下,主要問了Moshi幾個簡單問題:第一個,法國巴黎有哪些著名景點?Moshi:埃菲爾鐵塔。
接著問,盧浮宮博物館有哪些著名的展覽物品?Moshi:世界名畫蒙娜麗莎的微笑。
又問了,巴黎有哪些標(biāo)志性建筑?Mosh:凱旋門,這是一個擁有悠久歷史的建筑。
由于Moshi的論文還沒有發(fā)布,「AIGC開放社區(qū)」就說一說自己的親身使用體驗吧。
1)響應(yīng)速度超級快,本次測試使用的是國區(qū)線路,而Moshi的demo服務(wù)器在歐洲和美國,但當(dāng)你用語音提問完問題后,幾乎0延遲就能馬上響應(yīng)你的提問。Moshi官方給出的理論延遲是160毫秒。
2)不支持中文普通話,這一點還是能理解的,畢竟Moshi面向的國外用戶群體,主流語言還是英語,同時也支持法語。
3)回答內(nèi)容有限,Moshi雖然是語音輸出內(nèi)容,但詳細程度比ChatGPT那種純文本差好多,回答的內(nèi)容只能是輪廓大概,相信以后產(chǎn)品會迭代更多。
4)使用方便快捷,幾乎沒有繁瑣的注冊流程,你只需要提交一個郵箱即可,馬上就能幫助你非常方便。
5)Moshi聽和說的能力有了,看的能力還沒展示出來,這個功能估計以后也會添加吧,這樣整個輸出模式將更加完善。
6)這類產(chǎn)品對家教、教育行業(yè)是起到顛覆性作用,例如,讓家教老師幫你反復(fù)講解一道高數(shù)題,估計兩遍人就比較惱了,而AI可以幫你循環(huán)講解無數(shù)次,這對于教育幫助是巨大的。
7)期待國產(chǎn)類似的GPT-4o、Moshi產(chǎn)品出現(xiàn),最好再支持一些閩南話、粵語、四川話、東北話等有特色的地方語言,就像汽車導(dǎo)航那樣一定會非常有意思。
對于Moshi的發(fā)布,網(wǎng)友們還是相當(dāng)興奮的,在我們苦等GPT-4o的語音模式時,Moshi橫空出現(xiàn),期待他們更好的表現(xiàn)。
在推理延遲方面,Moshi似乎比GPT-4o更好。這一點從實際操作來看,確實是很快的。
剛試了一下Moshi的產(chǎn)品,其高效的推理響應(yīng)以及低延遲,令人印象深刻,這就是我一直期待的產(chǎn)品。
繼續(xù)稱贊Moshi的低推理延遲。如果使用功能更高級的模型,即便推理時間長一些也沒問題。確實現(xiàn)在,Moshi的回答內(nèi)容還是太寬泛了。
已經(jīng)有人急的不行,開始要源代碼了,你們可是開放AI研究實驗室啊~?????????
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由激石Pepperstone發(fā)布,如需轉(zhuǎn)載請注明出處。