本篇文章2391字,讀完約6分鐘

電子沙盤http://www.sidukj.cn/vr.html【科技在線】

大數(shù)據(jù)成熟了嗎? 交換隱私方便嗎? 曾經(jīng)受歡迎的大數(shù)據(jù)的發(fā)掘,最近成為了輿論的熱門話題。 有網(wǎng)友的專業(yè)測試證實了某商家利用大數(shù)據(jù)挖掘技術(shù)已經(jīng)成熟。 百度董事長兼首席執(zhí)行官李彥宏表示,中國人對隱私問題不那么敏感,進一步加劇了這種狀況。 大數(shù)據(jù)挖掘技術(shù)就像帶有負面信息的明星,似乎一眨眼就變暗了,成了竊取隱私的小偷。

在《大數(shù)據(jù)時代》這本書暢銷幾年后,大數(shù)據(jù)不再那么受歡迎,但并未退役,其快速發(fā)展成為了人工智能實現(xiàn)的基礎(chǔ)之一。

那么,大數(shù)據(jù)挖掘是什么技術(shù)呢? 從誕生迅速發(fā)展到現(xiàn)在,什么樣拼命努力的技術(shù)人員又增長了那些能力? 面對大數(shù)據(jù)難以管理的問題,是否通過技術(shù)手段進行控制?

客戶圖像:機器給人類貼標簽

通過添加標簽來制作客戶的圖像是數(shù)據(jù)挖掘中經(jīng)常使用的技術(shù)。 北京大學計算機科學技術(shù)研究所多媒體新聞解決研究室主任彭宇新教授指出,繪制客戶圖像是利用社會交流互聯(lián)網(wǎng)的新聞,根據(jù)客戶的社會屬性、生活習慣、支出行為等新聞,抽象出標簽化的客戶模型,機器像人一樣可靠 社會交流互聯(lián)網(wǎng)數(shù)據(jù)是實現(xiàn)這一目標的基礎(chǔ),機器見人多來源于社會交流互聯(lián)網(wǎng)數(shù)據(jù)的挖掘。

標簽一般是分解顧客新聞得到的高度精致的特征表示,便于機器進行新聞提取、聚合分解等解決。 標簽本身不再需要分解副本等解決工作,便于利用機器提取標準化新聞。

有了標簽,計算機就可以自動解決人和相關(guān)的新聞,通過算法、模型可以逐步了解人。 彭宇新表示,多個標簽可以共同完成圖像,將整個過程分為三個步驟。 一是收集數(shù)據(jù),也就是基于文案的新聞捕捉,口語中叫做爬數(shù)據(jù),二是顧客的行為模型,通過機器學習技術(shù)形成算法模型,評價顧客可能的一點點行為。 第三,可視化展示。 是用能讓人理解的方法展示機器運算的結(jié)果。 這三個步驟經(jīng)過了多次調(diào)整,在實際應(yīng)用中,有可能根據(jù)結(jié)果反饋和業(yè)務(wù)訴求進行二次建模等調(diào)整。

整個過程的影響參數(shù)相對多樣,不同行為類型的權(quán)重對標簽新聞的影響也不同。 以應(yīng)用廣泛的商品營銷為例,例如網(wǎng)絡(luò)銷售葡萄酒時,購買權(quán)重為5,僅瀏覽數(shù)為1,考慮瀏覽間隔、停留時間、生活習慣等,用許多復(fù)雜的算法最終表現(xiàn)一個標簽的權(quán)重,從而形成圖像

基于客戶的圖像技術(shù),大數(shù)據(jù)挖掘?qū)⑦M行分類和相關(guān)規(guī)則的計算等分解。 例如,有多少客人喜歡葡萄酒? 喜歡葡萄酒的人中,男性、女性的比例是多少? 喜歡葡萄酒的人一般喜歡什么體育企業(yè)品牌?

媒體間的智能識別:在計算機上佩戴慧眼

以前以文案新聞為主流,但現(xiàn)在充斥著圖片和視頻等多媒體數(shù)據(jù)。 彭新表示,后者目前占大數(shù)據(jù)的80%以上。

由于數(shù)據(jù)種類發(fā)生了巨大的變化,智能識別的任務(wù)變得更加困難。 管不住、不好用的問題日益突出。 機器只能讀自己的語言。 彭宇新說,人類世界的所有語言都必須轉(zhuǎn)換成機器理解的語言才能被識別。 以前只解決拷貝比較簡單,但現(xiàn)在必須追加很多復(fù)雜的圖像和視頻等數(shù)據(jù)。

例如,世界上有數(shù)千種鳥類,許多種類的差異非常細微,即使是擁有專業(yè)信息的人也不容易準確識別,計算機自動識別更是困難。 彭宇新表示,理解圖像、視頻拷貝的難點在于如何進行語義自動識別,這也是他們團隊多年來的攻關(guān)課題之一,為此,團隊發(fā)明了基于觀察力模型和深度增量學習的識別方法。

觀察力模型,顧名思義,是讓計算機自動定位圖像的有意義的區(qū)域,提高檢測精度; 深度學習是指計算機利用已經(jīng)學到的知識加速新知識的學習,通過動態(tài)擴展,可以幫助檢測新概念。

新模型新算法的力量,使機器能夠迅速識別圖像、視頻的語義新聞。 彭新隊近幾年在參加國際權(quán)威評估trecvid的視頻樣本檢索比賽中6次均獲得第一名,在與卡內(nèi)基梅隆大學、牛津大學、ibm watson研究中心等參賽隊伍的競爭中獲勝。 一個主題是,在464小時的視頻中快速準確地找到所有倫敦地鐵的標志,彭宇新隊僅用一秒鐘就獲得了冠軍,獲得了第一名。

在單一媒體新聞的分解和識別上,如何讓機器像人一樣看待和理解呢?

為了實現(xiàn)跨媒體新聞融合和一體化分解識別的目的,項目小組首先將數(shù)據(jù)自動逐個發(fā)送到每個不同媒體類型對應(yīng)的分解識別模塊。 例如,分割視頻鏡頭,提取關(guān)鍵幀,逐一發(fā)送到鏡頭檢索、片段檢索、視頻字幕識別等模塊,將單一媒體的分解結(jié)果進行媒體間的語義關(guān)聯(lián)分解,實現(xiàn)媒體間新聞的語義協(xié)作。 一種常見的做法是建立第三方空之間的交叉媒體關(guān)聯(lián)。 彭宇新說,計算機根據(jù)我們教給我們的模型分別提取圖像、視頻、拷貝、音頻的特征,投影在一個第三方空之間,不同媒體的新聞就可以對話了。

抽絲技術(shù)剝繭,使圖像和視頻新聞像復(fù)制品一樣透明。 我們是以應(yīng)用為目標進行的,但準確率、解決速度都經(jīng)過多年的優(yōu)化,現(xiàn)在可以實用了。 彭新新表示,該技術(shù)不僅支持信息媒體等領(lǐng)域的數(shù)據(jù)管理和檢索,還支持網(wǎng)絡(luò)管理部門分解和監(jiān)測大數(shù)據(jù)。

延長瀏覽

匿名解決:預(yù)期的隱私保護措施

雖然要打破新聞的控制權(quán)幾乎是不可能的,但是保護隱私有一個方便的方法。 郵電大學教授楊義先的《安全簡史》中有一個形象的比喻,認為數(shù)據(jù)在網(wǎng)絡(luò)上裸奔時,避免被跟蹤的便捷安全手段是捂臉。 這就是所謂的匿名化解決機制。

根據(jù)客戶隱私保護的相關(guān)規(guī)定,數(shù)據(jù)公司在銷售數(shù)據(jù)時必須匿名解決數(shù)據(jù)。 北京大學計算機科學技術(shù)研究所研究員趙東巖說。 然而,為了確定準確的位置和推送服務(wù),匿名化的解決方案可能被忽略。 它指的是目標客戶群的面向身份,而不是發(fā)送給組。 因此,個性化推送和匿名解決在當前技術(shù)中是相互競爭的。

的沖突相比,行業(yè)先行者提出了區(qū)塊鏈的處理思路。 我把那個叫做身份證。 北京領(lǐng)主科技企業(yè)研究員劉偉泰表示,大數(shù)據(jù)的本質(zhì)是集團研究,但集團的粒度可以細化一些,另外,區(qū)塊鏈技術(shù)可以賦予顧客授權(quán)的做法。

不難想象,隨著新技術(shù)的不斷創(chuàng)新,新聞安全方面的技術(shù)突破不斷增加。 也可以用來平衡新聞控制權(quán),而不是挖掘大數(shù)據(jù)。

標題:“隱私換便捷?大數(shù)據(jù)發(fā)掘究竟是怎樣的技術(shù)?”

地址:http://www.mawius.com//xwdt/41652.html