亚洲高清一区二区三区-亚洲高清一区二区三区四区-亚洲高清中文字幕一区二区三区-亚洲光棍天堂-成人免费视频一区-成人免费视频一区二区三区

大模型落地需要“記憶力”,這家公司想為向量數據庫正名 | 把脈大模型

2023-08-07 11:23:36

現實生活中若兩人進行對話,大致需要三步流程:一方首先拋出話題作引子;另一方會先調動記憶判斷自己是否了解這個話題,然后再分析給出應該做出何種回答。如此循環往復直到互動結束,而此次對話又會作為一種新的“記憶”被雙方吸收。

為讓計算機完成這樣的互動過程,并持續在一對一或一對多的情況下變成日常,AI科學家提出了CVP結構,即“ChatGPT(以ChatGPT為代表的大模型)+Vector Database(向量數據庫)+Prompt(提示詞)”,分別承擔計算機分析、記憶、引子的功能。


(相關資料圖)

向量數據庫作為計算機記憶體一般的存在,正吸引著大批投資人和創業者的關注。向量數據庫創業公司Zilliz的創始人兼CEO謝超告訴界面新聞,大模型落地,從數據的角度要面對的重要現實就是計算同存儲的分離,即大模型屬于廠商,而數據屬于用戶?!皣鴥葞缀跛兄髁鞯拇竽P蛷S商上半年上門找我們聊合作,都迫切想知道一件事——大模型如何跟向量數據庫配套使用,或者說計算和存儲如何結合并實現低成本的重復使用。”

向量數據庫是一種專門處理(主要包括存儲和檢索)非結構化數據的新型數據庫。傳統的數據庫主要處理由行、列二維表格方式存儲的結構化數據,這類數據具有標準化的格式,較為容易做量化分析。而非結構化數據是指那些高維度、難以量化的抽象數據,通常需要特定的數據結構來組織,且不易分析?,F實生活中,非結構化數據以各種形式出現,包括文本、圖像、音視頻以及未來多模態呈現更為復雜多元的表情、體態等數據。

結構化數據,一本書的信息按照ISBN碼、年份、署名、作者就可轉化為二維表格

非結構化數據,一個完整句子需要結合上下文語境,按語義分割將每個單詞轉化為三維乃至更高維的向量矩陣

以OpenAI背后的GPT模型預訓練所用的數據為例,GPT-3.5的“知識庫”共包含3000億單詞的數據,匯聚了來自開源語料庫、維基百科、各類圖書與新聞報道、Reddit與Twitter平臺文章等大量互聯網文本數據。GPT-4在此基礎上體量更大,且為了支持多模態專門收集各類圖像、視頻素材,這其中非結構化數據應占有極大比重。同時,隨著大模型朝著多模態趨勢的迭代,非結構數據的數量勢必將呈指數級增長。

根據IDC、Gartner等市場調研機構的估算,真實世界中絕大多數數據(約80%)都為非結構化數據,只有少量(約20%)為結構化數據。然而正如冰山效應所喻示的“巨大的冰山往往是八分之一浮在水面上,八分之七沉沒在水面之下”,非結構化數據結構復雜且難處理,反而導致有效利用率遠低于結構化數據。因此,打造面向非結構化數據的向量數據庫也變成了一場從0到1的拓荒。

Zilliz成立于2017年,總部位于硅谷,是最早一批探索向量數據庫的先行者。以大模型誕生為分水嶺,公司的成長歷程可分為“前大模型時期”和“后大模型時期”。

在前大模型時期,向量數據庫的技術理念并未有統一的定義,市場上也未有同類產品模式可作參照。Zilliz起步只能在無人區中開拓新賽道,客戶、投資、應用場景都是未知數?!拔覀冏鱿蛄繑祿斓那皫啄陰缀鯖]有任何收入,全靠融資生存,但那時候說服投資人是一件很困難的事情。招聘工程師、找客戶、拉投資,不確定性幾乎來自方方面面,這也成為Zilliz的常態。”

2019年,Zilliz開源了全球首個向量數據庫產品Milvus,目前在GitHub上獲得了超過2.1萬顆Star,是開源圈內的明星項目,也給公司帶來了第一批用戶。同時,團隊發表的向量數據庫相關的兩篇論文,也在2021和2022連續兩年入選了數據庫領域國際頂級會議SIGMOD和VLDB。在創始人眼中,Zilliz前幾年所做的工作都在一步步將向量數據庫推向主流視野的關注范圍內。

后大模型時期,ChatGPT的爆發則徹底改變了向量數據庫的發展速度。2023年3月,在英偉達全球開發者大會上,黃仁勛力挺向量數據庫對構建專有大型語言模型的重要價值,同時點名Milvus。緊接著,Milvus和Zilliz Cloud又成為了OpenAI官方首批plugin合作的向量數據庫。

資本和競爭對手隨即迅速涌入這一賽道。其實,早在2022年8月,Zilliz就完成了累計超過 1.03億美元的B輪融資,由沙特阿美Aramco Ventures旗下基金領投,現有股東淡馬錫、高瓴創投、五源資本和云啟資本跟投,估值達6億美元。另外一家OpenAI官方合作的向量數據庫公司Pinecone最新宣布獲得a16z領投的1億美元,估值達7.5億美元。今年4月,有4家向量數據庫創業公司宣布當月獲得融資。大模型廠商也紛紛開始著手布局自家的向量數據庫,騰訊、京東均有對外公開的向量數據庫產品。

參考美國2022年上市的數據庫公司Snowflake以及還未上市的獨角獸公司Databricks,融資規模都已達到數十億美元。向量數據庫如今已經走完了為賽道“正名”的第一步,目前處在產業化的開端。而數據庫行業先天具有高資本投入、高技術門檻的特點,一款數據庫通常需要經過成百上千的工程師研發迭代,技術產品的工程積累預計將成為該賽道競爭的決定性條件。

前大模型時期通過搞科研、發論文、做開源為向量數據庫正名后,處于后大模型時期的Zilliz將2023年視為“商業化元年”。

在開源產品Milvus之外,公司將云服務產品Zilliz Cloud作為商業化的關鍵。Zilliz Cloud可以幫助企業用戶構建十億級向量數據庫,部署和擴展向量搜索服務,收費模式分為存儲收費(按數據規模與存儲時間)與計算收費(按機器數與運行的小時數)。這也是該公司進一步穩固市場的核心所在。

(文章來源:界面新聞)

標簽:

關閉
新聞速遞
主站蜘蛛池模板: 欧美高清hd18日本 | 日韩精品第一区 | 717影院理伦午夜论八戒 | 欧洲做视频在线观看 | 免费国产精品视频 | 国内午夜免费鲁丝片 | 真实国产乱弄免费视频 | 免费黄色福利视频 | 日韩a毛片免费全部播放完整 | 久久国产香蕉视频 | 中文字幕在线看视频一区二区三区 | 欧美成人综合 | 日批视频免费在线观看 | 樱花aⅴ一区二区三区四区 影音先锋色69成人资源 | 高清国产一区二区三区 | 午夜在线观看视频在线播放版 | 亚洲片在线 | 成人av手机在线观看 | 在线观看成年美女黄网色视频 | 一本大道香蕉大vr在线吗视频 | 动漫美女胸被狂揉扒开吃奶动态图 | 一个人看www在线是免费 | 亚洲一区精品中文字幕 | 3344在线看片 | 五月丁香六月综合缴清无码 | 国产成人不卡亚洲精品91 | 国产一级鲁丝片 | 一个人看的免费高清www视频 | 亚洲成人综合在线 | 天天草夜夜爽 | 日韩亚洲欧美在线 | 小明明看看视频永久免费网 | 欧美8888| 一级毛片在线免费播放 | 日本动漫的18涩涩视频 | 日韩精品中文字幕在线 | 在线观看91精品国产入口 | 国产亚洲精品仙踪林在线播放 | www.夜夜操.com| 国产成人综合久久精品亚洲 | 午夜视频一区 |