時間:2022-05-27 12:54:20
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇個性化推薦系統范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
隨著信息技術和互聯網的迅速發展,人們逐漸從信息匱乏時代進入了信息過載時代。這個時代,對于信息生產者而言,如何讓自己生產的信息脫穎而出,收到廣大用戶的關注是一件很困難的事情。對于用戶而言,信息量的增大加重了找到感興趣信息的負擔,從而降低了信息的使用效率。推薦系統正是在這一環境中誕生的,它是根據用戶的信息需求、興趣等,將用戶感興趣的信息、產品等推薦給用戶的個性化信息推薦系統。
1 推薦系統概念、組成要素
目前被廣泛接受的推薦系統的概念和定義是Resnick和Varian在1997年給出的:“它是利用電子商務網站向客戶提供商品信息和建議,幫助用戶決定應該購買什么產品,模擬銷售人員幫助客戶完成購買過程”。個性化推薦系統主要由三個要素組成,分別是:候選對象、用戶、推薦算法。推薦系統把用戶模型中興趣需求信息和推薦對象模型中的特征信息匹配,同時使用相應的推薦算法進行計算篩選,找到用戶可能感興趣的推薦對象,然后推薦給用戶。
2 推薦技術
推薦算法是整個推薦系統中核心的部分,在很大程度上決定了推薦系統的質量。目前主要的推薦技術基本包括以下幾種:基于關聯規則的推薦技術,基于內容的推薦技術,協同過濾推薦技術和混合推薦技術。
2.1 基于關聯規則的推薦技術
關聯規則是數據中所蘊含的一類重要規律,對關聯規則進行挖掘是數據挖掘中的一項根本任務,關聯規則挖掘就是從數據項目中找出所有的并發關系,這種關系也稱為關聯。關聯規則挖掘的經典應用就是購物籃數據分析,目的是找出顧客在商場(或普通店鋪)所選購商品之間的關聯。
關聯規則可以這樣表述。設I={i1,i2,…,in}為所有項的集合,事務T表示事務集合。數據庫D為事務數據庫。關聯規則形如XY的蘊含式,其中X、Y均為項目集,并且X、Y沒有交集。關聯規則的強度可以用支持度和置信度表示。支持度為同時包含X、Y 項集的事務在數據庫D中的百分比。置信度為包含X的事務同時也包含Y在數據庫D中的百分比。目前已有大量文獻提出關聯規則挖掘算法,在眾多算法中,最著名的是Apriori 算法。
Apriori算法是由Agrawal等人在1994年提出來的,是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。該算法分兩步進行:第一步,生成所有繁瑣項目集,繁瑣項目集是支持度高于最小支持度的項目集;第二步,從繁瑣項目集中生成所有可信的關聯規則,可信關聯規則是置信度大于最小置信度的規則。
基于關聯規則的推薦技術其優點是:簡單直接,領域通用性強,規則的挖掘可以離線進行,可以保證推薦算法的實時性要求。其缺點是:存在著嚴重的"冷啟動"問題,新加入的項目由于缺少相關的用戶數據,難以被系統中的規則發現,從而得不到推薦,并且隨著系統項目數量的不斷增加,規則也會呈出相應的增長趨勢,使得規則的管理成本相應升高,降低了系統的運行效率。
2.2 基于內容的推薦技術
基于內容的推薦算法重要的是建立項目特征屬性庫,系統通過用戶已關注項目的特征屬性值,來掌握目標用戶興趣點,依據用戶興趣點與待推薦項目屬性值的匹配程度進行推薦。用戶興趣點的產生依賴于系統所采用的機器學習算法,如基于向量的表示、文本挖掘、判別樹、神經網絡等技術。基于內容的推薦結果直觀易理解,不需要過多的領域知識,但是需要有足夠數據構造分類器,一些例如稀疏問題、新用戶問題和復雜屬性等問題不易處理。
2.3 協同過濾推薦技術
基于協同過濾推薦技術是當前主流的,應用最為廣泛的一種推薦技術。該推薦技術可以分為兩種,一種是基于用戶的協同過濾推薦技術;另一種是基于項目的協同過濾推薦技術,這兩種協同過濾推薦技術的不同之處在于兩者針對的對象不同。基于用戶的協同過濾推薦技術是給用戶推薦和他有共同興趣的用戶喜歡的物品;基于項目的協同過濾推薦技術是給用戶推薦和他之前喜歡的物品相似的物品。
2.3.1 基于用戶的協同過濾推薦技術
基于用戶的協同過濾技術是推薦系統中最古老的算法。該算法在1992年被提出,并應用于郵件過濾系統,1994年被GroupLens應用于新聞過濾。該算法主要包括兩個步驟:第一步,找到和目標用戶興趣相似的用戶集合;第二步,找到這個集合中用戶喜歡的,且目標用戶還沒有聽說過的物品,將該物品推薦給目標用戶。
2.3.2 基于項目的協同過濾推薦技術
基于項目的協同過濾技術是基于這樣一個假設:用戶更傾向于選擇與用戶喜歡的項目相近的項目。該推薦過程分為兩個步驟,第一,計算物品之間的相似度;第二,根據物品的相似度和用戶的歷史行為為用戶生成推薦列表。
2.4 混合推薦技術
目前,推薦技術已經發展出了很多種,但每種推薦技術都在不同程度上存在各自的缺點,每種推薦技術在針對特定的用戶或者項目時才能發揮出自己的優勢。因此人們提出了混合推薦來互補推薦技術各自的不足,已達到一個理想的推薦效果。在大部分的混合推薦技術研究當中,是將基于內容的推薦技術和基于協同過濾技術相結合。相對于使用單一途徑算法的推薦技術,基于混合推薦技術往往表現出更高的推薦精度和更好的推薦質量。
3 推薦系統的應用
自推薦系統誕生近20年的時間里,推薦系統的應用領域迅速擴展。從電子商務、音樂視頻網站,到作為互聯網經濟支柱的在線廣告和新穎的在線應用推薦,到處都有推薦系統的身影。下面簡單介紹個性化推薦系統的應用以及該領域較成功的網站。
3.1 電子商務
電子商務網站是個性化推薦系統的一大應用領域。著名的電子商務網站亞馬遜是個性化推薦系統的積極應用者和推廣者,被讀寫網稱為“推薦系統之王”。亞馬遜的推薦系統深入到了各類產品中,其中最主要的應用有個性化商品推薦列表和相關商品的推薦列表。
3.2 電影和視頻網站
在電影和視頻網站中,個性化推薦系統能夠幫助用戶在大量視頻信息中找到令他們滿意的視頻。該領域較成功的一家公司就是Netflix。Netflix在2006年開始舉辦著名的Netflix Prize推薦系統比賽。該比賽對推薦系統的發展起到了重要的推動作用。
3.3 個性化音樂網絡電臺
個性化推薦的成功應用需要具備兩個條件。第一是存在信息過載的問題,第二是用戶大部分時候沒有明確的需求。在這兩個條件下,個性化網絡電臺無疑是最合適的個性化推薦產品。目前國際上著名的有Pandora和Last.fm,國內的代表則是豆瓣電臺。
3.4 個性化閱讀
閱讀文章是很多互聯網用戶每天都會做的事情。目前互聯網上的個性化閱讀工具很多,國際知名的有Google Reader,國內有鮮果網等。同時,隨著移動設備的流行,移動設備上針對個性化閱讀的應用也很多,其中具有代表性的有Zite和Flipboard。
[參考文獻]
[1]Resnick P.Varian HR Recommender systems[外文期刊].1997(03).
[2]許海玲.互聯網推薦系統比較研究[J].軟件學報,2009.20(2):350.362.
[3]王國霞,劉賀平.個性化推薦系統綜述[J].計算機工程與應用,2012,48(7).
[4]劉興濤,石冰,解英文.挖掘關聯規則中Apriori算法的一種改進[J]. 山東大學學報,2008,43(11):67-71.
[5]胡斌.基于高階潛在語義分析的音樂推薦系統的研究,碩士論文.北京工業大學計算機學院,2009.
[6]Schafer JB,Konstan J,Riedl J.Recommender systems in e-commerce[M].On Electronic Commerce,1999.P367-461.
[7]Deshpande M,Karypis G.Item-based top-N recommendation algorithms[J].ACM TransInformation Systems,22(1):143-177,2004.
智能Web時代的到來意味著大數據分析在各個行業的運用成為必然趨勢,推薦系統作為典型的智能Web應用,通過對用戶行為數據的積累和分析,將傳統用戶的搜索行為轉化為推送行為,從而實現原始電商到智能電商的轉變。本文以智能Web時代為引,就旅游電商推薦系統的基本實現方法和思路展開了討論和分析。
【關鍵詞】智能Web 個性化旅游電商
1 智能Web時代的到來
當我們去訂餐的時候,飯店訂餐系統引用了我們公開的健康調查數據,從而為我們搭配適宜的綠色飲食;當我們與陌生人在線聊天時,對話內容得到通訊軟件后臺的事實核查,保證交流內容的真實和安全(如facebook);當我們在線購書時,電商平臺能夠根據用戶購物行為的相似度判斷來給出最合理的推薦(如亞馬遜)。這一系列的發生與正在發生的案例為我們詮釋了一個時代的到來,智能Web時代。
所謂智能,是指能夠不斷通過大數據分析抽象出普遍規則,進而替代窮舉的一種高效機器學習方式。拓展開講,一款智能Web應用要首先具備大數據能力,或者叫內容聚合,這是機器學習的基礎條件;然后需要具備參考結構,參考結構為原始大數據提供了科學的解釋和展示形式,它為原始數據的分析和展現提供了重要的助力;最后還要具備合理的算法,算法為從數據轉變為信息提供了可行的方法,并將信息抽象為引導用戶交互的規則,這三大要素構成了智能Web應用的充要條件。
2 旅游電商推薦系統研究與設計
作為一類典型的智能Web應用,推薦系統因為谷歌的廣告和亞馬遜的商品推薦等形式為人們所熟知,它的出現為當下信息過載的大環境帶來了良好的解決方案。通過對用戶行為數據的積累和分析,將傳統用戶的搜索行為轉化為推送行為,從而實現原始電商到智能電商的轉變。
旅游電商對推薦系統的認識度和重視度目前還處于比較初級的狀態,遠不如消費品電商平臺,這也反映出了旅游電商企業對大數據的分析處理意識與主流消費品電商的差距。我們認為,實現高效用的旅游電商推薦系統,需要在精準度和展現形式兩方面進行深入研究,第一是要對旅游產品進行精確建模,只有精確建模才能在推薦計算中獲得準確的結果。第二是推薦引擎的科學選擇,常見的推薦系統引擎分為兩類,協同過濾推薦和基于內容分析的推薦。協同過濾推薦是基于用戶的行為數據積累做出推薦,例如基于相似用戶的推薦和基于相似條目的推薦。基于內容分析的推薦則需要考量用戶之間、條目之間和用戶與條目內容之間的相似度。其中,相似度算法是不同推薦引擎的核心,我們通過如下常用代碼片段來說明相似度的計算方法。
由代碼1可知,事實上相似度計算的方法是多樣化的,需要根據實際的問題進行相似度算法的選擇,目前大量的實驗表明,基于歐氏距離的相似度算法效果相對較好。
在大數據的精確分析基礎上,再將推薦結果以服務而非廣告的展示形式推送到旅游電商的各個營銷環節,必將會極大的推動產品購買的轉化率。
3 旅游電商推薦系統展望
在智能Web時代,隨著人們對信息和服務的智能化要求,推薦系統必定會在旅游電商營銷環節占據愈加重要的地位,同時,單一的旅游產品推薦將會無法滿足用戶的需求,旅游推薦系統的衍生形態將會慢慢發展起來,推薦系統的內容和展示方式也都將會呈現出多元化和個性化的趨勢。作為旅游電商的從業者,必須清楚的認識到推薦系統、大數據分析、智能Web等要素對旅游電商發展的推動作用,并隨勢而動,才能在互聯網+的時代獲得市場和用戶的青睞。
參考文獻
[1]吳婷,熊前興,賀曦春.基于用戶特征和用戶興趣變化的協同過濾推薦[J].電腦知識與技術,2008,4(7).
[2]王國霞,劉賀平.個性化推薦系統綜述[J].計算機工程與應用,2012,48(7).
[3]張娜.電子商務環境下的個性化信息推薦服務及應用研究[D].合肥工業大學,2007.
[4]許海玲.互聯網推薦系統比較研究[J].軟件學報,2009,20(2).
[5]王巧榮,趙海燕,曹健.個性化服務中的用戶建模技術[J].小型微型計算機系統,2011,32(1).
作者簡介
嚴杰(1981-),男,浙江省衢州市人。碩士學位。現為浙江旅游職業學院講師。研究方向為Web開發和電子商務。
【關鍵詞】特征提取技術個性化網頁推薦系統應用
個性化網頁推薦系統,對現代電子商務的發展具有重要的實用價值和商業價值。將特征提取技術廣泛的應用在個性化網頁推薦系統中,對于操作系統應用網絡系統和數據挖掘技術對客戶進行商品推薦,實現了銷售再次合作,有效的防止了客戶的流響。
一、個性化網頁推薦系統
近年來,隨著網絡在世界范圍內的普及應用,民眾對網頁的瀏覽已在世界范圍內風靡。個性化網頁推薦改變了用戶單一被動接受信息的模式,搜索引擎功能的運用實施也比以往的只有搜索與用戶匹配的關鍵詞完成上,占有更大優勢。個性化網頁推薦的應用,擴大了網頁推薦引擎的搜索范圍,能為用戶提供更多他們感興趣的網頁。個性化網頁中,關鍵詞的概括更具概括性。
個性化網頁推薦體系的服務器端,由特征提取對其負責文本進行分類預處理,通過對候選網頁進行推薦和進一步篩選,最后再與客戶端實現數據的交互傳輸。
二、特征提取技術
特征提取技術,即可以通過提取用戶閱讀的網頁內容,挖掘出用戶感興趣的內容。在個性化網頁推薦系統中的應用,通過關聯規則篩選出了符合條件的搜索內容,避免了搜索過程中出現的無法搜索項。推薦網頁鏈接由網頁推薦系統對用戶程序自動捕獲閱讀網頁事件,并通過客戶端在瀏覽器窗口右側。以當前網頁為中心,將興趣分支供用戶觀賞。
特征提取技術應用在網頁推薦系統中,能使Web通過網絡用戶注冊數據的了解用戶基本情況,偏好及瀏覽行為中累積的原始空間維數,對于用戶潛在的興趣愛好及未來商家的可實用性和可操作性進行綜合評判。
由于網頁推薦系統顯示的終端數據五花八門,從原理上來說,就承載了太多數據的無效空間,利用“指紋”特征,能更有效,更有針對性的挖掘出有用的信息,而且節省了時間和用戶就此付出的費用。網頁推薦系統研究中,就將特征提取技術作為通信領域的劃時代變革。
由于網頁數據的無結構化特點,在對一些文本進行預處理時,原始空間特征你的系統維數,無論怎樣來說都需要特征壓縮文件對其維數進行壓縮工作.網頁的特征提取技術,在這一時段的應用中就發揮了不可超越的力量。
三、個性化網頁推薦系統設計與應用
因為個性化網頁推薦系統是多步驟系統性處理數據,對于提高其系統的實時性和處理空間維數的能效來說,可以費時較長的步驟利用系統服務器的閑置時間進行處理或將部分結果存儲于數據庫中。
特征提取技術在個性化網頁推薦系統中的設計使用原理:商家經由Web處理和識別用戶;通過特征提取技術,讀取系統數據庫數據并經由用戶反過來信息以后,再次將數據庫數據傳輸給用戶;再次由系統自動組件,通過用戶反饋回來的信息挖掘并推薦處理再次數據;對于數據結果,網頁系統會對原始空間維數進行預處理,將部分耗時較長的數據自動在系統閑時處理,部分用于存入LOG中;個性化網頁推薦系統就以存儲讀取數據,最后對網頁做出推薦結果。中間的各個環節,都需要用戶意見的及時反饋,最終處理的結果就是個性化網頁推薦系統將高效正確的信息顯示給用戶。這樣就完成了,特征提取技術在個性化網頁推薦中的運用。
個性化網頁推薦系統中,廣泛應用特征提取技術,不但有利于降低空間系統維數,更有利于對用戶所需要的信息進行價值憑升,對于原始空間中存在的無價值信息,特征提取會做出及時的反饋并根據自身評定,做出簡單取舍。
特征提取技術的進步,能有效提升計算量,在中文標識記的文本特性中,提取的精確度,直接程度上有利于個性網頁推薦使用中,達到用戶的滿意度,提升他的內在營運價值,將網頁瀏覽和獲取信息量,真正成為商業用途中高效能的使用工具。
四、總結
特征提取技術在個性化網頁推薦系統中的應用,對于網絡交易平臺的實現和節省用戶使用網絡的費用和時間,同時對于促進網絡商務交流合作具有極大的創新意義。利用網頁推薦技術助企業分析從網上獲取有效數據,實現他們的動態科技創新發展,具有很大意味的企業調整營銷策略。
參考文獻
[1]于洪波.網頁特征提取技術研究[J].山東理工大學學報(自然科學版). 2011,3
[關鍵詞] 電子商務 體育營銷 個性化推薦系統
近年來,電子商務的快速發展極大地改變了傳統的貿易模式,為企業和消費者提供了一個相互交流的便捷平臺。本文旨在提出一個適合于體育營銷的個性化推薦模式,以期使電子商務能廣泛、高效地為發展體育事業服務。
一、國內電子商務個性化推薦系統的現狀
目前個性化推薦已開始在國內電子商務領域初現端倪,PC零售業的巨頭――Dell公司正是通過提供個性化推薦在電子商務活動中獲得了巨大的成功。然而,在電子商務推薦系統的應用方面,國內電子商務網站與國外網站相比差距還較大,主要表現在:
1.缺乏個性化的推薦: 由于很多推薦籠統地粗放地面向所有用戶,而非個性化的推薦,其結果與每一用戶的特殊興趣并不相符合,這是我國電子商務推薦系統最主要的缺陷。
2.推薦的自動化程度低: 大多數的推薦功能都需要用戶經過一段時間與計算機進行交互,輸入自己感興趣的信息,然后才能得到結果。并且,系統不能保存用戶每次輸入的信息。總體來說,所有的推薦策略都基本上停留在查找這一層次上,不能實現自動推薦。
3.推薦的持久性程度低: 目前大多數的推薦策略都是建立在當前用戶會話的基礎上,不能利用用戶以前的會話信息,因而推薦的持久性程度非常低。這也是國內推薦系統的不足之處。
4.推薦策略單一: 大多數推薦系統所用的推薦策略基本上就是分類瀏覽和基于內容的檢索,缺乏多種推薦策略的結合使用,尤其缺少個性化與非個性化推薦策略的混合使用。
產生以上問題的主要原因,首先是消費者對電子商務不信任的社會心理還比較普遍,不愿提供真實的個人信息。其次,是現實生活中電子商務個性化推薦不到位,管理制度不完善,無法達到消費者要求的水平,建立提供電子商務個性化推薦的網絡系統的技術也欠發達。
二、電子商務個性化推薦系統及其分類
電子商務個性化推薦系統(Personalized Recommendation Systems for E -Commerce)的正式定義由Resnick & Varian在1997年給出:“電子商務個性化推薦系統是利用電子商務網站向用戶提品信息和相關建議,幫助用戶決定購買什么產品,通過模擬銷售人員幫助用戶完成購物過程的系統”。這個定義現在已被廣泛引用,推薦系統的使用者是用戶(電子商務活動中的用戶)(user),推薦的對象是項目(item)。項目是推薦系統提供給用戶的產品或推薦,也即最終的推薦內容。
根據推薦對象的特點,目前存在的推薦系統可以大致分為兩類:一類是以網頁為主要推薦對象的推薦系統,它主要采用Web數據挖掘,尤其是使用Web日志挖掘的方法來分析用戶的興趣,向用戶推薦符合其興趣愛好的網頁鏈接。另一類推薦系統的推薦對象主要是產品,這種系統主要在電子商務網絡購物環境中使用,幫助用戶找出他真正想要的產品。
三、電子商務個性化推薦系統模塊
1.輸入模塊(Input):主要負責對用戶信息的收集和更新。輸入來源按時間劃分,可分為用戶當前行為輸入和用戶訪問過程中的歷史行為輸入;也可以分為個人輸入和群體輸入兩部分。輸入形式主要包括:用戶注冊信息輸入、隱式瀏覽輸入、關鍵字輸入、編輯推薦輸入、用戶購買歷史輸入等等。
2.推薦方法模塊(Recommendation method)是整個推薦系統的核心部分,它直接決定著推薦系統的性能優劣。推薦方法模塊是以推薦技術和推薦算法為技術支撐。
3.輸出模塊(Output)負責將推薦結果輸出給用戶。輸出形式主要包括相關產品輸出、個體評分輸出、相關推薦輸出等。
四、電子商務個性化推薦系統的體系結構
與傳統的網站系統相比,個性化的電子商務系統有一個很大不同之處:個性化的電子商務網站一般都沒有靜態頁面,這是由HTTP協議的“無狀態性”所決定的。瀏覽器與Web推薦器之間的一個交互過程如圖1所示。
從上圖可見,客戶機瀏覽器與Web推薦器之間采用TCP連接,并且該連接狀態在此次連接過程中尚能保持。但是,Web推薦器在發送給客戶機應答信息后,便“遺忘”了此次交互,無論Web推薦器和客戶端瀏覽器都不會記憶上一次連接的狀態。目前,解決這個問題的方法一般有兩種:
1.使用Cookie。Cookie是存儲在Web客戶端機器上的一個小文本文件。Web推薦器端的處理程序可以創建一個Cookie,然后讓推薦器把該信息發送給客戶端的瀏覽器。瀏覽器收到信息后即把數據存儲在客戶端的硬盤上。以后,當該客戶再次訪問該站點時,推薦器的處理程序向客戶機的瀏覽器請求該Cookie。 通過Cookie,可以使推薦器端的處理程序具有交互性。
2.采用全動態的頁面。“全動態”是指在獲取用戶的身份信息后,在用戶訪問的每一個頁面中都寫入系統分配給顧客的一個唯一標識,當用戶向推薦器提交推薦請求時,這個標識也一起傳送到了推薦器。這樣,推薦器端的處理程序可以從這個標識中獲取用戶的身份信息。采用這種方式,不同的用戶擁有不同的標識,不同的顧客也就有了一套不同的頁面。這些頁面只可能通過處理程序來動態生成。
因此,一個個性化的電子商務系統一般是沒有靜態頁面的。綜上所述,一個個性化電子商務網站的基本結構如圖2所示。
五、個性化處理單元的設計
1.個性化處理部分:這是個性化處理單元中一個很重要的部分,它與接口部分協作,完成了個性化網頁的生成工作。個性化處理部分一個大致的工作流程如下:(1)確認用戶身份,以便對不同的用戶提供不同的推薦。如果由于輸入錯誤或其他一些原因,用戶可能無法通過身份認證,對此系統可以有不同的處理方式。(2)獲取用戶配置信息。用戶在通過認證后,系統將從后臺數據庫中獲得用戶配置信息,如用戶的興趣、愛好等等。根據系統的不同,需要的用戶配置信息也會有所不同。(3)生成動態頁面。匹配中心根據用戶的配置信息,與相應的數據庫進行交互,動態生成頁面。 最后通過連接管理模塊將結果頁面發送給Web推薦器,最終由推薦器將頁面返回給發送請求的用戶。
2.管理部分;其工作是在后臺管理整個系統的運行,對于一個個性化系統來說,管理部分還有一些特殊的地方:(1)管理工作的內容比較繁雜。管理工作有的是直接為訪問網站的用戶推薦的,有的是為網站后臺應用服務的。(2)進行管理工作的人員也比較復雜。在一個個性化的系統中,高級決策人員、銷售人員、網頁維護人員等都可以進行相應的管理工作。正因為如此,管理部分成為個性化系統中一個不可缺少的部分。管理部分共有內容管理模塊、規則管理模塊、后臺管理模塊三大塊,每個模塊的功能都不相同。
3.接口部分:這一部分包括接入管理模塊和數據庫接口兩部分。個性化處理單元處于Web推薦器與后臺數據庫之間,它通過接口部分與Web推薦器和數據庫連接。因此,接口部分在 Web推薦器、個性化處理單元和數據庫間起到了一個“橋梁”的作用。(1)接入管理模塊。接入管理模塊的主要功能是接收Web推薦器發送的請求信息,并將產生的結果頁面返回Web推薦器。根據Web推薦器中HTP網關的不同,接入管理模塊可以是一個外部的應用程序,或者是一個連接入推薦器的模塊。(2)數據庫接口。數據庫的接口大致可以分為兩類:通用接口和專用接口。通用接口,如ODBC, JDBC等,可以連接到多種數據庫。專用接口只能對應于某種專用的數據庫。但通用接口在速度方面不如專用接口。根據網站規模的不同、經營項目的不同、硬件設備的不同,庫接口都會有所不同,這需要具體問題具體分析。
六、結束語
電子商務網站為終端客戶和分銷商等商業個體提供商業信息交流的平臺,如何對系統留下的大量冗余的商業數據再利用是一個具有挑戰性的問題。隨著數據挖掘技術的成熟,尤其是Web挖掘技術的產生,如何提供電子商務網站個性化推薦越來越受企業關注,也是保障企業生存發展的重要因素之一。
參考文獻:
[1]余力:電子商務個性化――理論、方法與應用.清華大學出版社,(2006)
【關鍵詞】網絡數據挖掘;個性化電子商務;推薦系統
【中圖分類號】C37【文獻標識碼】A【文章編號】1672-5158(2013)07-0109-01
引言
在信息化全方位發展的今天,電子商務之所以能在世界范圍內迅速發展,其優勢在于方便、快捷、成本低、受限少。然而,電子商務也同樣存在一些必須解決的問題,就是用戶和商家之間的互選問題,即用戶對所需產品的挑選和商家對用戶所需的了解。通過網絡數據挖掘與電子商務的恰當結合,就可以很好的解決這一問題,對電子商務的發展起到了很大的幫助。
1 網絡數據挖掘
1.1 網絡概述
在社會生活中存在著關乎人們工作和生活的各種各樣的系統,通過對其本質進行分析,可以得到一個抽象的包含眾多節點和連接節點的邊的網絡。網絡是復雜系統的研究工具,為復雜系統的研究提供了新的模式和思想方法。
1.2 網絡數據挖掘推薦算法
1.2.1 基于二部分圖網絡結構的推薦算法
因為系統的主體都是用節點來表示的,但是網絡中的節點可以是一個類型,也可以不是一個類型。節點的連接關系用矩陣表示,這類節點屬于單模式網絡;節點不是一種的類型,不同類型的節點之間才能連接的網絡稱為二部分網絡。
運用二部分圖結構的算法,把推薦的系統中項目節點看作是具備一定的,能夠分配出去的資源,同時可以把資源分配給其他看好的商品項目。
1.2.2 基于用戶關聯網絡的推薦算法
之所以可以將網絡思想引入推薦算法,是因為電子商務系統中的用戶與商品及用戶與用于之間具有關聯性,這種基于網絡的商務系統具有非常強大的適應性。主要思想就是:首先,建立用戶選擇的商品與評價信息之間的關聯圖,以權值計量。然后,在已形成的關聯圖中,按某商品的全部使用記錄,把該商品推薦給其它相關權值較大的用戶。
2 個性化電子商務推薦系統
2.1 個性化電子商務推薦系統的內容
電子商務是指有商務能力的實體,通過現代的電子技術來進行商務活動的過程。特別是現階段,電子商務所表現出的優勢越來越明顯。現有的個性化推薦系統在主動為用戶提供所需的信息或服務的基礎上,更能同時滿足為企業謀利益的要求,能為企業大力發展潛在用戶,也就是可以通過個性化推薦系統實現雙向推薦。
2.2 推薦系統的主要研究內容
2.2.1 信息的獲取以及模型建立
隨著因特網在全球的迅速發展,在準確獲取用戶信息的基礎上,包括用戶瀏覽行為等內容在內的交互式用戶信息獲取方式成為發展的趨勢,這就要求在獲取用戶信息時,要對信息提前進行分類。
模型建立和更新的數據來源于不同途徑得到的用戶信息數據,并與其數量和質量密切相關,通過數據清理和轉換篩選出適用于建模的數據。現階段常見的建模技術有:關聯規則挖掘、基于內容的過濾、聚類算法等。
2.2.2 推薦算法設計的有關研究
推薦算法有實時、準確、高效的特點,現在使用的主要算法都具有不同的適用領域,由于電子商務系統的使用率日漸增多,用戶數據庫的內容也越來越多,因此必須要在保證算法準確性的基礎上,同時對其實時性進一步研究。盡管新的設計正在不斷被推出,但都有一定的片面性,所以,想要得到較理想的推薦算法還需要進一步的研究。
2.2.3 評價推薦系統存在的問題
由于推薦系統的應用領域較多,并且不同的推薦系統的評價目的各異,另外,現在的評價指標大多只注重評價系統的單一特征,想對目前的推薦系統進行客觀的評價還是比較困難的。現在常用的六種準確度評價指標有:預測準確度、排序準確度、半衰期效用指標、距離標準化指標、預測打分關聯、分類準確度。
2.2.4 一些應用方面的問題
研究推薦系統的目的就是使其能夠在不同的領域中取得應用,雖然推薦系統已經取得很好的應用效果,但其發展空間還是非常巨大的,如發展企業需要的潛力用戶、拓寬推薦系統應用領域等。
3 數據挖掘與個性化推薦系統
電子商務系統中的信息量非常巨大,并且保持與日俱增的趨勢,數據挖掘技術可以讓這些蘊含著非常有用的規則和模式的數據得到很好的運用,從而更好的提供個性化服務。
3.1 聚類分析技術
聚類就是把數據在無指導的情況下通過非預先設定方式進行分組劃分,這些數據之所以具有潛在性是因為它們都是在劃分過程中自動生成的。利用這種技術得到的數據更有關注意義,更適合于分析使用。在個性化推薦系統中,通過聚類技術將客戶按照不同的特征劃分成不同的部分,這就使得搜索工作的效率大大提高。
3.2 關聯規則技術
關聯規則就是在數量龐大的數據中找出項集中的有用規則,以其高效的性能和伸縮性而成為是一個很熱門的數據挖掘技術。但關聯規則也有它的不足之處,就是參數閾值設置時會影響規模的效率。
關聯規則中有兩個很重要的概念,即置信度和支持度。以商品銷售為例,關聯規則生成步驟如下:第一步,從所有銷售產品中找到全部的繁項集,這也是關聯規則挖掘的核心和熱點所在。第二步,生成關聯規則,在頻繁項目集中找到同時符合最小置信度和最小支持度的關聯規則。
3.3 協同過濾技術
協同過濾是現階段使用頻率最多、效果最好、最受歡迎的一項技術。該技術主要是針對用戶,通過搜索目標用戶得到用戶的行為偏好同時做出商品評價。通常所說的協同過濾技術主要指基于用戶的協同過濾技術,隨著對該技術的不斷研究和發展,基于商品項目的協同過濾技術也得到了不斷的提高。
3.3.1 基于用戶的協同過濾技術
該技術的研究對象主要是用戶,并且在現實生活中的使用率較高。即通過假設,把對某一商品具有相似評價的用戶列為相似用戶,并由此推斷歸結到一起的相似用戶對其他商品也會有相似的評價。
基于用戶的協同過濾算法實施步驟:(1)獲取用戶信息,即利用用戶—項目矩陣描述用戶所獲得的商品的信息,這是用戶信息獲取步驟中最主要的內容;(2)相似性的計算以及相似用戶集的產生,就是通過相似性計算得到與目標用戶相似的用戶群,得到符合相似用戶數的一定數量的相似用戶;(3)生成推薦結果,是在相似用戶集的基礎上,根據推薦方法生成推薦結果。
3.3.2 基于項目的協同過濾技術
基于項目的協同過濾技術的研究對象主要是商品項目。該技術就是用相似性計算,得到用戶評價的商品項目與目標項目的相似值。利用它們之間的共性,預測用戶對目標項目的評價值,通過這樣的方式來獲得同類商品信息。
結束語
電子商務推薦系統的應用領域非常之廣,特別是將網絡數據挖掘技術與其相結合,更好的符合了電子商務領域的用戶所需。本文系統地闡述了網絡數據挖掘和個性化商務系統以及他們之間的結合,探討了網絡技術在個性化商務系統中的應用。在今后的工作過程中,還應加強對基于網絡數據挖掘的個性化電子商務推薦系統的深入研究,以切實提升系統運行的安全性與可靠性。
參考文獻
[1] 張遠程,康永勝.基于swarm平臺和社交網絡的電子商務個性化推薦系統仿真模型的理論構建[J].計算機光盤軟件與應用,2012,(21):124-125
關鍵詞:數據挖掘;關聯規則;聚類;個性化推薦;圖書館
中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2009)31-pppp-0c
The Application Research of Association Rules and Affairs Grouping Technique in Library Individualized Recommendation System
ZHANG Ting1, YAO Wan-hui2
(1.International Business School, Anhui University, Hefei 230011, China; 2.Education Department, Hefei University, Hefei 230601, China)
Abstract: This paper puts forward the correlation algorithm which is based on affairs grouping technique by the analysis of classical Apriori algorithm’s mining process .Readers are clustered by profession, grade, borrowing amount and other characteristics. Then, correlation analysis is made on each group. The bookrecommendation quality of this algorithm is better than the classical Apriori algorithm.
Key words: data mining, Association rules, Clustering, individualized recommendation, Library
上世紀80年代以前圖書借閱主要依賴卡片進行人工檢索、登記。隨著信息技術和網絡技術的發展,80年代圖書館迎來革命性的技術――圖書館自動化信息管理技術。該技術以計算機和自動化集成管理系統為平臺輔助圖書館工作人員處理采購、編目、流通、檢索等業務。90年代后期,以數據挖掘技術為基礎的數字圖書館技術得到了較快發展,數字圖書館管理系統能夠主動分析讀者、圖書及流通歷史記錄,找出其中隱藏的關系和規律,根據不同的讀者特點提供相應的服務。個性化推薦系統是其中的一個重要分支,它將已借圖書列表作為形式參數,規則作為函數,得到推薦圖書列表。
推薦算法是個性化推薦系統中的核心部分,它在很大程度上決定了推薦系統性能。目前,主要的推薦算法包括:協同過濾推薦、基于內容推薦、基于關聯規則推薦等。本文探討基于關聯規則推薦(Association Rule-based Recommendation)算法及應用。
1 關聯規則挖掘算法介紹
1.1 基本概念
設I={I1,I2,……,Im}是項的集合;設與任務相關的數據D={T1,T2,……,Tn}是數據庫事務的集合,其中每個事務T是項的集合,使得T?哿I,每個事務T有一個事務標識符TID;設A是一個項集,A?哿T。關聯規則是形如A=>B的蘊涵式,其中A?奐I, B?奐I,并且A∩B=?I。有如下定義:
1) 包含A和B(即包含A∪B)的事務在事務數據庫D中的百分比稱為規則A=>B在D中的支持度,support(A=>B)=P(A∪B)。
2) 事務數據庫D中包含A的事務同時也包含B的百分比稱為規則A=>B在D中的置信度,confidence(A=>B)=P(B|A)。
3) 如果項集A的相對支持度計數滿足預定義的最小支持度閾值(min_support),則A是頻繁項集(Frequent Itemsets)。
4) 數據庫事務集D在I上滿足最小支持度和最小置信度(min_confidence)的關聯規則稱為強關聯規則。
關聯規則挖掘過程由兩步構成:
1) 找出所有的頻繁項集:通過用戶給定的最小支持度,尋找所有頻繁項集,即滿足支持度不小于min_support的所有項目子集。
2) 由頻繁項集產生強關聯規則:通過用戶給定的最小置信度,檢查每個頻繁項集。在其中找到置信度不小于min_confidence的關聯規則,將這些規則輸出。
1.2 經典Apriori算法
經典Apriori算法是R.Agrawal和R.Srikant于1994年提出的為布爾關聯規則挖掘頻繁項集的原創性算法。
Apriori使用逐層搜索的迭代方法,即k項集用于發現(k+1)項集。首先,通過掃描事務數據庫,累計每個項的計數,搜集滿足最小支持度的項,找出頻繁1項集的集合,該集合記作L1。然后,L1用于找頻繁2項集的集合L2,L2用于找L3,如此下去,直到不能在找到頻繁k項集Lk。每個Li的生成都需要一次事務數據庫完全掃描。
2 基于聚類的事務集分組技術
2.1 算法性能分析
Apriori算法在具體應用領域內存在很多的問題,其中最為典型的是事務數據不均衡。在圖書個性化推薦系統中,試圖尋找圖書之間的關聯規則,即尋找滿足最小支持度的圖書頻繁項集,再由頻繁項集和最小置信度生成關聯規則。而生成頻繁項集所依賴的圖書借閱事務數據庫D中的借閱事務是不均衡的,有如下表現:
1) 專業圖書一般被本專業內讀者借閱,而非專業圖書(如:文藝、小說等)為所有專業的讀者共享。專業圖書的借閱記錄相對整個借閱記錄的比例很低,導致專業圖書的支持度偏低,而大量的非專業圖書的支持度卻很高。在實驗中表現為置信度很高的規則因不滿足最小支持度閾值而丟失,專業圖書推薦質量下降。
2) 各專業的人數差異很大,在統一的最小支持度閾值情況下,即使min_sup的值很小,對人數少的專業,規則生成數量仍然很少,推薦系統對此類專業不公正。
在上述的背景下,試圖通過降低最小支持度閾值的方法解決問題是不科學的。雖然降低最小支持度閾值會增加規則數量,減少有價值規則的丟失,但是,這會導致運算量的大幅度攀升,而且專業圖書推薦質量并不能夠得到明顯的提高。
[關鍵詞]電子商務個性化信息服務個性化推薦系統
一、個性化信息服務
隨著網絡技術的不斷發展和電子商務的盛行,個性化信息服務成為了各商家在激烈的競爭中立于不敗之地的重要法寶。DELL公司的成功,就證實了個性化信息服務的重要性。個性化信息服務是指互聯網絡使用者可以按照自己的目的和需求,在某種特定的網絡功能和服務方式中,自己設定網上信息的來源方式、表現形式、特定網上功能以及其他的網上服務方式等,以達到最為快捷地獲取自己所需的網上信息服務內容的目的,強調“以用戶為中心”盡可能的滿足用戶的需求。個性化信息服務應用于電子商務中,通過捕獲用戶的興趣來提高商品的銷售量。
二、個性化信息服務的主要特點
1.以用戶為中心,以滿足用戶個性化的價值追求為目標。個性化信息服務應主動為用戶選擇最需要的資源與服務,根據用戶需求的變化,動態的改變所提供的信息,讓用戶得到個性化的服務。它以滿足特定用戶的特定需求為主旨,以給用戶提供最快捷、最方便、最易用的服務為目標,它是“以用戶為中心”的服務,可以是以用戶的信息需求為依據,面向用戶開展的一切服務性活動,也可以是針對特定需求向用戶提供特定信息的有計劃、有目的的活動,服務的基礎就是用戶的信息需求。
2.具備智能化信息分析與處理功能。個性化信息服務中的智能化信息分析與處理功能一方面表現在系統的主動性推薦和協同推薦上,另一方面表現在對用戶綜合行為的挖掘中。主動推薦是指主動采集并跟蹤用戶瀏覽的信息,從用戶日常檢索瀏覽中主動學習用戶的興趣,推理并預測用戶需求,及時處理推薦信息;協同推薦是指根據不同用戶的相同點或相似性進行信息推薦,使需求相同的用戶之間共享查詢結果。用戶綜合行為的挖掘是針對用戶所有可能被記錄下來的行為進行數據挖掘,實現資源的深層挖掘并提供有效的服務。
3.推薦精確、系統的知識。個性化信息服務通過過濾、屏蔽無關無用的冗余信息,推薦精確、有效、真正具有針對性的信息,:能自動地、智能地將大量的數據轉換為具有規律性、系統性的知識,形成具有內在關聯的信息鏈和知識鏈,并以易于理解的模式推薦給用戶。
4.主動性、高效性、靈活性。個性化信息服務采用“push”技術,其主動性主要是指服務不需要用戶及時請求而主動地將數據傳給用戶,與傳統的瀏覽器的“pull”技術的被動服務形成鮮明的對比;高效性主要是指可在網絡空閑時啟動,能夠有效的利用網絡帶寬,比較適合傳送大量的多媒體信息;靈活性主要體現在用戶能夠完全根據自己的方便和需要,靈活地設置連接時間,通過E-mail、對話框、音頻、視頻等方式獲取網上特定信息資源。
5.允許用戶充分表達個性化需求。個性化信息服務系統不僅提供友好的界面,而且方便用戶交互、描述自己的需求、反饋對服務結果的評價等。
三、個性化信息服務研究的基本問題
個性化信息服務研究的基本問題包括個性化的具體應用:個性化應用分為資源的個性化入口和過濾/排序;用戶信息需求定義文件的表示與創建:用戶信息需求或興趣的描述和存儲;協同過濾與單獨過濾:針對一個或一組用戶對信息文檔根據文件進行的相關度排序;系統的體系結構:用戶信息需求定義文件放在服務器還是客戶計算機上,或者處于二者之間的服務器上;個性化系統的評估:包括信息需求定義文件的收斂分析和信息需求定義文件是否反映用戶的實際興趣分析。這些問題也是設計一個具體的應用必須要明確的問題,而且它們之間是互相關聯、互相制約的。
四、個性化信息推薦系統
推薦系統是一種在特定類型數據庫中進行知識發現的應用技術,使用多種數據分析技術為用戶更好的服務,向用戶主動、及時、準確地提供所需信息,并能根據用戶對推薦內容的反饋進一步改進推薦結果。不僅要對用戶提出的要求提供最貼切的信息服務,還要能依據個體個性特征,主動收集個體可能感興趣的信息,甚至預測個體可能的個性發展,提前收集相應的信息,最后以個性化方式顯示給個體。是實現個性化信息服務的關鍵。
1.個性化信息推薦系統的關鍵技術。個性化信息服務推薦系統是實現個性化信息服務的主要途徑,主要是通過信息過濾和協同過濾等技術將用戶需要的信息推薦給用戶的。其關鍵技術有:
(1)內容過濾技術:試圖跟蹤和把握用戶的潛在信息需求,比較資源和用戶描述文件,對動態信息流進行過濾,盡量屏蔽無用信息,向用戶主動提供信息資源列表,從而提高用戶獲取信息的效率。
(2)協同過濾技術:利用用戶的訪問信息,通過用戶群的相似性進行內容推薦,不依賴于內容僅依賴于用戶之間的相互推薦,避免了內容過濾的不足,保證信息推薦的質量。
(3)聚類分析技術:對數據對象進行分類,把一組數據對象分到不同簇中,簇是一組數據對象的集合,使簇內各對象間具有較高的相似度,而不同組的對象差別較大。
2.個性化信息推薦系統的基本要求。個性化信息服務是為用戶打造量身訂制的服務,是為了更好的滿足用戶的需求。個性化信息服務推薦系統應該滿足個性化、主動性、新穎性、準確性的基本要求。
(1)個性化:根據不同用戶的不同背景、不同需求,為不同用戶提供不同的信息,存在一定程度的個性差異。
(2)主動性:系統主動根據用戶的信息需求向用戶提供信息,實現“信息找人”的過程,而不是“人找信息”。
(3)新穎性:系統向用戶提供的信息是用戶以往所不具有的,未曾訪問的卻又是需要的。
(4)準確性:在相同或相近的信息資源中,對兩個不同用戶的相似要求返回不同的信息結果,以滿足不同用戶的不同需求。
3.個性化信息推薦系統體系結構。目前,個性化信息推薦系統總的來說可以分為基于規則的和基于過濾的兩種推薦系統。基于關聯規則的個性化信息服務,主要針對特定的站點組織結構,采用最大向前訪問路徑輔助內容事務方法。制定一系列規則并利用這些規則為特定用戶提供服務。利用規則來推薦信息依賴于規則的質量和數量,基于規則的技術缺點是隨著規則的數量增多,系統將變得越來難以管理。基于過濾的個性化推薦服務分為基于內容過濾的推薦服務和基于協同過濾的推薦服務。基于內容過濾是通過比較資源和用戶信息描述文件,推薦與用戶興趣相似的資源。基于協同過濾的推薦系統則是利用用戶群的訪問信息,通過用戶群之間的相似性進行內容推薦。
結合以上兩類系統,為了能夠為用戶主動提供所需信息,個性化信息服務推薦系統一般需要通過用戶接口模塊、需求信息模塊、信息檢索模塊、用戶分析模塊、信息過濾模塊、信息推送模塊6個功能模塊來實現。
(1)用戶接口模塊:是用戶與系統之間的接口。負責處理用戶初次輸入的用戶信息,并將它存儲在用戶信息庫中;接收用戶輸入的認證信息,與用戶信息庫中的個人認證信息比較,完成用戶身份認證;處理用戶的檢索需求;將用戶輸入的興趣、愛好信息及用戶對于推薦信息的評價提交給需求分析模塊,接收信息推送模塊送來的信息,最終將其提交給用戶。
(2)需求分析模塊:是對用戶接口模塊送來的用戶初始興趣信息進行分析,建立用戶模型,并根據用戶反饋修改用戶模型。
(3)信息檢索模塊:是接收用戶接口模塊處理過的用戶檢索需求,檢索本地數據庫和網絡數據庫,并將檢索結果送到信息過濾模塊,并將其存儲到本地信息庫中。
(4)用戶分析模塊:是負責比較該用戶模型與其它用戶模型之間的相似度,找出有相同或相似興趣的其他用戶,相互推薦信息,實現信息資源共享。
(5)信息過濾模塊:是根據用戶模型對信息檢索模塊返回的檢索結果進行過濾并將過濾的結果送到信息推薦模塊;此外,如果用戶分析模塊找到了具有相同或相似興趣的用戶,信息過濾模塊也將這些用戶的個性化信息傳送到信息推薦模塊。
(6)信息推薦模塊:是負責實現主動信息服務,根據用戶信息庫中對于信息推送的時間、數量等設置,將經過信息過濾模塊過濾的信息推送到用戶接口模塊。
五、結束語
傳統的定題服務所具有的主動性是有限的,從根本上講仍是“用戶找信息”,而個性化信息服務是依托網絡環境的,可以在較高程度上改變信息與用戶的關系,能夠滿足網絡環境下真正實現“信息找用戶”。個性化信息服務以其交互性好、不受時間地域的限制、針對性強、資源豐富等優點,將成為電子商務發展的方向。
參考文獻:
[1]曾春:信息過濾的概念表示與算法研究[D].北京:清華大學,2003