谷歌新聞收錄新算法?
據(jù)國外媒體報道,谷歌去年提交的一項新聞排序系統(tǒng)專利申請泄露了谷歌在新聞排序上的一些算法規(guī)則。
這項專利提交的時間為2012年2月,批準(zhǔn)時間為去年12月,名稱叫“提高新聞文章排序的系統(tǒng)和方法”。
哥倫比亞大學(xué)新聞學(xué)院的教授SreeSreenivasan稱,技術(shù)世界有很多不透明的地方。此項專利申請可以讓人了解像Google這樣的公司是如何選擇在線內(nèi)容并對其排名的。他指出,Google用來判斷新聞來源質(zhì)量的某些指標(biāo),跟編輯用來確定某出版物是否值得信任是一樣的。
根據(jù)此項專利資料,谷歌在對“GoogleNews”頁面上所展示新聞進(jìn)行排序時使用了十多種獨立算法規(guī)則。
以下是部分算法規(guī)則
1、用原創(chuàng)文章數(shù)或原創(chuàng)句子數(shù)來衡量新聞來源的質(zhì)量;
2、用“故事規(guī)模得分”確定某組織一周、一個月或更長時間撰寫的原創(chuàng)文章的重要性。比方說,如果D是關(guān)于哥倫比亞航天飛機失事的文章,而相關(guān)主題的其他不同文章還有500篇,那么這個故事的規(guī)模就是500;
3、突發(fā)新聞得分的計算是通過衡量新聞來源發(fā)布重大事件的速度來確定的;
4、而新聞機構(gòu)(尤其是未受廣泛引用的那些)制作高品質(zhì)、原創(chuàng)內(nèi)容的能力,則可以通過故事提及人物的數(shù)量等來衡量;
這些算法具體包括:在一定時間內(nèi)一家新聞機構(gòu)創(chuàng)作的文章數(shù)量,新聞文章篇幅,新聞的報道的影響力,突發(fā)性新聞報道數(shù)量,新聞?wù)宫F(xiàn)形式,作者觀點,轉(zhuǎn)發(fā)發(fā)行量、以及與新聞運營員工規(guī)模、新聞員工規(guī)模、新聞來源的報導(dǎo)寬度、來自國外的流量,以及寫作方式等。
當(dāng)使用者輸入搜索字符時,谷歌會分析具有該關(guān)鍵字的新聞列表,確定每個鏈接的新聞來源,然后基于新聞來源品質(zhì)的各種指標(biāo)進(jìn)行排序。
不過根據(jù)專利信息,谷歌通過搜索引擎監(jiān)測發(fā)現(xiàn),知名新聞網(wǎng)站(如CNN)所提供的新聞普遍比較受讀者歡迎,而其它不知名網(wǎng)站(如TownNews)報道,用戶可能不去看。
自去年谷歌提出新聞排序新算法規(guī)則后,就引來了媒體公司的一片爭論。許多媒體公司抱怨谷歌很容易操作新聞排序。谷歌的這種行為會直接影響到了讀者所看到的新聞內(nèi)容。
來源:搜狐IT
原創(chuàng)文章,作者:王琪,如若轉(zhuǎn)載,請注明出處:http://ganyuanhong.cn/blog/archives/4846