北京2024年7月9日 /美通社/ -- 今年五月,在美國波士頓舉行的一年一度 THINK 大會(huì)上,IBM宣布了watsonx 平臺(tái)的幾項(xiàng)新的更新和新推出的數(shù)據(jù)與自動(dòng)化功能,旨在使人工智能(AI)對(duì)企業(yè)而言更具開放性、成本效益與靈活性。為了幫助中國客戶和合作伙伴進(jìn)一步了解這些新功能的業(yè)務(wù)價(jià)值,IBM中國科技事業(yè)部的數(shù)據(jù)與人工智能資深技術(shù)專家吳敏達(dá)撰文做了以下解讀。
IBM專家觀點(diǎn): 硬幣的兩面
作者:吳敏達(dá)
IBM科技事業(yè)部 數(shù)據(jù)與人工智能資深技術(shù)專家
引言
IBM Think 是年度盛會(huì),每年都會(huì)有令人興奮的新技術(shù)推出。作為一家在人工智能(AI)領(lǐng)域有著深厚積淀的百年企業(yè),IBM在今年五月的 Think 大會(huì)上宣布了 watsonx 平臺(tái)上的新功能,并且在六月發(fā)布了這些新功能的產(chǎn)品和版本。從這些新發(fā)布中我看到了硬幣的兩面,看到了IBM 在 AI 實(shí)踐中的成熟思考。
AI 從創(chuàng)新技術(shù)走向商業(yè)價(jià)值需要全面整體地通盤考慮,并不是單一技術(shù)就能解決的,這會(huì)包含很多的兩面性問題,而這些兩面性又是相輔相成,最后構(gòu)成企業(yè)自己的最佳實(shí)踐。比如,AI 技術(shù)要與咨詢服務(wù)相輔相成,重塑利用 AI 開展業(yè)務(wù);有效的 AI 模型,需要安全可靠的管控,啟用可信任、透明且可解釋的數(shù)據(jù)和 AI 工作流程。
“此兩者同出而異名,同謂之玄;玄之又玄,眾妙之門”,只有把硬幣的兩面充分結(jié)合,才能讓企業(yè)真正從生成式 AI 中獲益。本文試圖結(jié)合 Think 2024 帶來的產(chǎn)品最新能力來解剖這些兩面性,幫助理解 watsonx 解決方案獨(dú)特的價(jià)值和魅力。
分與合
企業(yè)級(jí) AI 應(yīng)用的未來在于開放和開源,在過去一年中可以看到國內(nèi)外大模型百花齊放。社區(qū)開源可以讓大模型變得更有活力,企業(yè)有更多的可供選擇的基礎(chǔ)大模型,這是“分”的好處。但是硬幣的另一面,也要考慮“合”的問題,需要讓社區(qū)方便地協(xié)作并更新現(xiàn)有的大模型,而不是創(chuàng)建多個(gè)克隆,依然處于“分”的狀態(tài)。現(xiàn)在HuggingFace 上有超過兩萬個(gè) llama 模型分支,這也證明缺少好的方法讓社區(qū)協(xié)作為大模型做出貢獻(xiàn),可以想像如果這兩萬個(gè)分支能合作在一起,將會(huì)產(chǎn)生更強(qiáng)大的模型。
其實(shí)這個(gè)問題不僅僅在社區(qū)存在,企業(yè)應(yīng)用也是一樣,一家公司希望跨部門在企業(yè)內(nèi)部做大模型的迭代升級(jí),希望利用內(nèi)部獲取的技能和知識(shí)進(jìn)行更新。如何跨部門內(nèi)部獲取技能,重復(fù)使用技能,如果不解決“合”的問題,各部門用自己的大模型各自為政,不僅成本高,知識(shí)也無法共享。
在Think 2024大會(huì)上,IBM 和 紅帽聯(lián)合推出了 InstructLab 這一首創(chuàng)的模型對(duì)齊技術(shù),這是圍繞大模型推動(dòng)開源創(chuàng)新的革命性方法,可將開源社區(qū)的資源直接引入大語言模型。與此同時(shí),watsonx.ai 也最新引入 InstructLab 來解決“分”與“合”的問題,亮點(diǎn)是易于理解、結(jié)構(gòu)良好的分類法,它是一個(gè)根據(jù)共享特征或關(guān)系將實(shí)體分類和組織為層次類別的分類樹。 InstructLab 分為三個(gè)主要分支:知識(shí)、核心技能和組合技能。 例如,在這個(gè)企業(yè)財(cái)務(wù)領(lǐng)域知識(shí)的例子中,企業(yè)可以自己添加自己的知識(shí)分類,葉節(jié)點(diǎn)就是企業(yè)自己的知識(shí)文檔,可以是手冊(cè)等文檔。用分類驅(qū)動(dòng)的方法取代了原來在“分”時(shí)候的隨機(jī)選擇,通過關(guān)注每個(gè)葉節(jié)點(diǎn)內(nèi)的特定企業(yè)示例,從而保證“合”的多樣性和模型質(zhì)量。
在 watsonx.ai 使用 InstructLab 有四個(gè)步驟:首先選擇合適的大模型進(jìn)行嘗試,找到不足的知識(shí)或技能,并可以通過模型的訓(xùn)練分類法標(biāo)簽看到知識(shí)分類和每個(gè)分類的知識(shí)問答示例。比如以下圖示的例子里看到的是有關(guān) IBM 歷史的知識(shí)以及在知識(shí)分類的位置。
然后添加知識(shí)或技能,并生成訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)立足于源材料,根據(jù)與新主題相關(guān)的特定文檔、手冊(cè)或書籍生成問題和答案,這確保了信息準(zhǔn)確且來源可靠。在評(píng)估和驗(yàn)證階段,模型充當(dāng)評(píng)估器,檢查生成的響應(yīng)是否忠實(shí)于原始材料。 這樣就能保持新知識(shí)的完整性和準(zhǔn)確性,最后再學(xué)習(xí)新的知識(shí)和技能“合”成新的模型。
解決“分”與“合”的問題,可以幫助企業(yè)的大語言模型與最新的技能和知識(shí)保持同步,InstructLab 可以幫助企業(yè)獲得最新的社區(qū)貢獻(xiàn)技能并保持最新狀態(tài)。很多企業(yè)希望了解訓(xùn)練大型語言模型需要做些什么,以便能夠更有效地調(diào)整模型,watsonx.ai 分類法探索器可以幫助 AI 開發(fā)人員了解訓(xùn)練模型所需的技能和知識(shí)結(jié)構(gòu),并能夠輕松識(shí)別差距。
IBM watsonx Code Assistant for Z 使用 InstructLab 對(duì) COBOL 編程語言轉(zhuǎn) Java 進(jìn)行訓(xùn)練相較于傳統(tǒng)方法訓(xùn)練,從原來需要9個(gè)月、14次迭代的過程減少為 1周、1次迭代,通過這一方法,代碼轉(zhuǎn)化效能提升了20%。
縱與橫
企業(yè)從生成式 AI 的試驗(yàn)階段轉(zhuǎn)向生產(chǎn)階段, 通常有“縱”與“橫”兩種消費(fèi)模式:“縱”是從應(yīng)用出發(fā),企業(yè)采用預(yù)打包的AI 解決方案;“橫”是從平臺(tái)出發(fā),企業(yè)基于工具平臺(tái)來構(gòu)建自有 AI 應(yīng)用。
人工智能助手就是為“縱”的需求而生的,是針對(duì)企業(yè)最關(guān)注的特定領(lǐng)域量身定制的開箱即用的應(yīng)用:代碼現(xiàn)代化應(yīng)用 watsonx Code Assistant、重塑客戶服務(wù)的應(yīng)用 watsonx Assistant、工作流程自動(dòng)化應(yīng)用 watsonx Ochestrate 和智能對(duì)答業(yè)務(wù)分析應(yīng)用 watsonx BI Assistant。通過部署人工智能助手,企業(yè)可以利用自然語言理解和機(jī)器學(xué)習(xí)技術(shù)來自動(dòng)化業(yè)務(wù)流程,將各種數(shù)據(jù)轉(zhuǎn)化為個(gè)性化的見解和及時(shí)的自動(dòng)化操作,從而為團(tuán)隊(duì)提供所需的專業(yè)知識(shí),達(dá)成更高水平的績(jī)效,包括更快回應(yīng)和解決客服問題,提高開發(fā)人員工作效率等。
watsonx BI Assistant 是最新推出的人工智能業(yè)務(wù)分析助手,提供真正的自助分析同時(shí)保持?jǐn)?shù)據(jù)一致性、治理和可組合的全棧解決方案。它的底層是接受過企業(yè)相關(guān)內(nèi)容訓(xùn)練和可信的大模型;語義自動(dòng)化層可以自動(dòng)理解數(shù)據(jù)并構(gòu)建語義模型,根據(jù)值得信賴且經(jīng)過行業(yè)驗(yàn)證的業(yè)務(wù)詞匯表訓(xùn)練大模型以豐富元數(shù)據(jù)的語義。指標(biāo)目錄定義并發(fā)布分析指標(biāo),能夠提取第三方數(shù)據(jù)模型和語義層中定義的指標(biāo)。最后以自然語言對(duì)話方式,零學(xué)習(xí)曲線的體驗(yàn)為業(yè)務(wù)用戶提供高級(jí)分析和個(gè)性化洞察的能力。
比如提問:“今年每個(gè)市場(chǎng)所有產(chǎn)品的收入是多少?”,watsonx 助手不僅能給出數(shù)據(jù)和報(bào)表,還能給出洞察:“新款 Tablet-5 出人意料地增長(zhǎng)了 10%,英國市場(chǎng)增長(zhǎng)了 15%”,最后會(huì)根據(jù)數(shù)據(jù)給出行動(dòng)指導(dǎo):“建議將資源轉(zhuǎn)移到這些增長(zhǎng)領(lǐng)域”。
watsonx Code Assistant 是不斷發(fā)展的一系列代碼助手,均由專為代碼生成而設(shè)計(jì)的 IBM Granite 模型提供支持,不僅有廣泛的客戶采用,而且 IBM內(nèi)部也利用該能力進(jìn)行更有效地進(jìn)行軟件開發(fā)。適用于 Ansible Lightspeed、主機(jī)的 COBOL和 Java 的代碼助手,因?yàn)閷W⑺詫I(yè),開箱即用地提供基于特定編程語言的預(yù)訓(xùn)練模型,以確保代碼生成的可信和準(zhǔn)確。
watsonx 最核心的產(chǎn)品集watsonx.data、watsonx.ai、watsonx.governance 就是解決“橫”的需求,提供完整的平臺(tái)工具。企業(yè)可以使用 wasonx 平臺(tái)根據(jù)特定業(yè)務(wù)數(shù)據(jù)、專業(yè)知識(shí)對(duì)模型進(jìn)行調(diào)整。隨著時(shí)間的推移,它變得越來越專業(yè),對(duì)業(yè)務(wù)也越來越有價(jià)值。由于企業(yè)可以控制平臺(tái)、 流程和數(shù)據(jù),結(jié)合強(qiáng)有力的人工智能治理能力,企業(yè)累積的價(jià)值隨時(shí)間推移變得越來越大。
在實(shí)際的企業(yè)自己的最佳實(shí)踐中,“縱”與“橫”往往會(huì)交錯(cuò)在一起,watsonx 在打造這一體系的時(shí)候也是采用同樣的技術(shù)架構(gòu),每個(gè)人工智能助手都是構(gòu)建在 watsonx 平臺(tái)上的應(yīng)用程序,這使得企業(yè)在任何階段都能夠無縫疊加應(yīng)用或平臺(tái)的能力。最終企業(yè)要無感知地應(yīng)用人工智能,SDK 和 API 也是很重要的環(huán)節(jié),所有的人工智能都是嵌入式的,“縱”與“橫”的體系中間是通過生態(tài)系統(tǒng)整合在一起的。
知與行
企業(yè)采用人工智能技術(shù)的目的是運(yùn)用,所以“知”“行”合一變得尤為重要。 在大模型時(shí)代,企業(yè)的大模型是數(shù)據(jù)的表現(xiàn)形式,這是人工智能模型的本質(zhì),也是企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì),不要外包它,而應(yīng)該保護(hù)它。模型和數(shù)據(jù)都是企業(yè)最重要的資產(chǎn),IBM Knowledge Catalog 就是“知”的部分:它是 AI 時(shí)代的智能數(shù)據(jù)目錄,可幫助企業(yè)采取智能自助的方式發(fā)現(xiàn)數(shù)據(jù)、模型等。
Knowledge Catalog 最新采用大模型能力來豐富元數(shù)據(jù)以實(shí)現(xiàn)分類自動(dòng)化,生成數(shù)據(jù)描述以解釋數(shù)據(jù)屬性和值,生成數(shù)據(jù)名稱并將業(yè)務(wù)術(shù)語映射到列,可以通過對(duì)話和搜索進(jìn)行知識(shí)目錄中的數(shù)據(jù)查找和操作。
最新發(fā)布 IBM Data Product Hub 是“行”的部分:它是數(shù)據(jù)和模型資產(chǎn)消費(fèi)解決方案,通過簡(jiǎn)化企業(yè)內(nèi)部生產(chǎn)者和消費(fèi)者之間的數(shù)據(jù)產(chǎn)品共享,幫助加速企業(yè)實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的成果。采用“將數(shù)據(jù)作為產(chǎn)品進(jìn)行管理”的方法,數(shù)據(jù)所有者和數(shù)據(jù)管理員等數(shù)據(jù)生產(chǎn)者將能夠管理和發(fā)布數(shù)據(jù)產(chǎn)品(數(shù)據(jù)集、報(bào)表、模型、代碼和定制的數(shù)據(jù)衍生品集合)。 這些數(shù)據(jù)產(chǎn)品易于發(fā)現(xiàn)、管理和可重用,確保業(yè)務(wù)分析師、業(yè)務(wù)線用戶、數(shù)據(jù)科學(xué)家和其他數(shù)據(jù)消費(fèi)者可以迅速找到并使用。
IBM Data Product Hub 從 IBM Knowledge Catalog 導(dǎo)入數(shù)據(jù)資產(chǎn),并將其打包以供整個(gè)企業(yè)的自助服務(wù)使用,并管理整個(gè)數(shù)據(jù)產(chǎn)品生命周期,從數(shù)據(jù)產(chǎn)品的加入到報(bào)廢。新增的數(shù)據(jù)合同定義了包含條款和條件以及服務(wù)水平協(xié)議的數(shù)據(jù)共享協(xié)議,將為數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費(fèi)者提供相互保證,確保數(shù)據(jù)以合規(guī)的方式共享和使用,從而在數(shù)據(jù)交換過程中融入信任。整個(gè)方案采用生成式人工智能技術(shù)來加速數(shù)據(jù)產(chǎn)品的發(fā)現(xiàn)、創(chuàng)建和消費(fèi)。
通過“知”“行”合一,可以根據(jù)不同的場(chǎng)景,通過文件、API 和自然語言查詢等方法自動(dòng)向業(yè)務(wù)用戶交付數(shù)據(jù)產(chǎn)品,從而更快地 AI 在企業(yè)大規(guī)模應(yīng)用,產(chǎn)生業(yè)務(wù)價(jià)值。可以在企業(yè)內(nèi)外實(shí)現(xiàn)大規(guī)模的數(shù)據(jù)共享,為業(yè)務(wù)用戶構(gòu)建單一入口,以便瀏覽整個(gè)企業(yè)的數(shù)據(jù)產(chǎn)品,形成真正的數(shù)字化“超級(jí)”市場(chǎng)?!盃杹砜创嘶〞r(shí)”,一旦找到精選的穩(wěn)定數(shù)據(jù)產(chǎn)品,“則此花顏色一時(shí)明白起來”。
總結(jié)
企業(yè)廣泛采用人工智能的時(shí)代已經(jīng)到來,AI 正從企業(yè)內(nèi)部的小型實(shí)驗(yàn)試點(diǎn)轉(zhuǎn)向大規(guī)模實(shí)施,但這是馬拉松長(zhǎng)跑,而不是百米沖刺,在過程中需要從不同的維度循序漸進(jìn)地迭代展開。 具體實(shí)踐中會(huì)遇到很多“硬幣”的兩面,本文拋磚引玉談到了“分”與“合”、“縱”與“橫”、“知”與“行”。在數(shù)據(jù)和人工智能項(xiàng)目中還碰到更多的兩面,例如:“虛”與“實(shí)”:數(shù)據(jù)是邏輯的集中(“虛”: Data Virtualization)還是物理的集中(“實(shí)”:watsonx.data);“動(dòng)”與“靜”:管道實(shí)時(shí)可觀測(cè)(“動(dòng)”:Databand)還是數(shù)據(jù)血緣和沿襲(“靜”:Manta),等等。
作為數(shù)據(jù)和人工智能的領(lǐng)導(dǎo)者,IBM 不僅服務(wù)于眾多企業(yè)客戶,而且自身也在利用生成式人工智能進(jìn)行著改變。隨著 watsonx 產(chǎn)品系列每季度的迭代更新和發(fā)展,越來越多的硬幣兩面會(huì)被注意到,并統(tǒng)一在 watsonx 中:“夫道一而已矣”。IBM 愿與您攜手,以開放與創(chuàng)新共參 AI 之道!
作者簡(jiǎn)介:吳敏達(dá)是 The Open Group 卓越級(jí)技術(shù)專家(Distinguished Technical Specialist),同時(shí)擁有計(jì)算機(jī)技術(shù)與軟件專業(yè)系統(tǒng)架構(gòu)設(shè)計(jì)師技術(shù)資格。他現(xiàn)在是 IBM 科技事業(yè)部數(shù)據(jù)與人工智能資深技術(shù)專家,擁有 20 多年數(shù)據(jù)分析軟件相關(guān)技術(shù)經(jīng)驗(yàn),是 IBM 認(rèn)證的大數(shù)據(jù)架構(gòu)師和 Watson 開發(fā)者,專長(zhǎng)是大數(shù)據(jù)、人工智能等領(lǐng)域。他是 IBM Developer 的大師級(jí)作者,已經(jīng)發(fā)表了 40 余篇技術(shù)文章和教程?,F(xiàn)從事大數(shù)據(jù)、人工智能相關(guān)技術(shù)支持和架構(gòu)設(shè)計(jì)工作。