应用潜在分类泊松回归模型及EM算法分析陈述偏好数据:

上传人:m**** 文档编号:171016232 上传时间:2022-11-23 格式:DOCX 页数:6 大小:35.41KB
收藏 版权申诉 举报 下载
应用潜在分类泊松回归模型及EM算法分析陈述偏好数据:_第1页
第1页 / 共6页
应用潜在分类泊松回归模型及EM算法分析陈述偏好数据:_第2页
第2页 / 共6页
应用潜在分类泊松回归模型及EM算法分析陈述偏好数据:_第3页
第3页 / 共6页
资源描述:

《应用潜在分类泊松回归模型及EM算法分析陈述偏好数据:》由会员分享,可在线阅读,更多相关《应用潜在分类泊松回归模型及EM算法分析陈述偏好数据:(6页珍藏版)》请在装配图网上搜索。

1、统计计算案例 1,吕晓玲应用潜在分类泊松回归模型及EM算法分析陈述偏好数据:以网络购物使用次数为例1. 问题提出 随着网络的兴起,网上购物已经在人们的生活中发挥着越来越重要的作用。网上购物以 其方便快捷等特点吸引了很多购物者,但是也有一些人质疑网上购物安全性、不可触摸性等 问题。影响人们选择网上购物的因素有很多,不同的人对网上购物也有不同的态度。大学生 是网络购物这个群体的很重要的一部分,什么因素影响大学生对网络购物的选择?大学生由 于对网络购物的态度取向不同可分为多少潜在的类别?本文应用陈述偏好方法( stated preference method)收集大学生网上购物的数据,并应用潜在分类

2、泊松回归模型latent classPoisson regression model)及EM算法分析数据,回答以上两个问题。2. 数据收集源于心理学的陈述偏好调查已经被市场营销中研究消费者行为广泛应用。虽然在进行每 个具体研究时操作不尽相同,总的原则是事先设定几个重要因素,每个因素有若干水平,然 后提出一些假想情景,每个情景是这些因素不同水平的组合。受访者按照他们的喜好给不同 的情景打分或者排序。研究者应用模型分析数据,寻找各因素的重要性。为了确定影响网络购物的重要因素,我们首先开展了预调查,针对购买商品的种类、价 格、邮费、卖家信用度、介绍商品详细程度以及网上购物节省时间和到货时间等因素对大

3、学 生进行了调查,并应用简单统计分析得到了对网上购物次数影响比较显著的四个因素,分别 是购买商品的种类、价格、卖家信誉度以及介绍商品的详细程度。具体因素和因素水平如下 所示:种类:服饰,化妆品,文体价格:50 元, 100 元, 150 元, 200 元, 250 元 卖家或网站的信誉度:1, 2, 3, 4, 5 介绍商品的详细程度:1, 2, 3, 4, 5若每一种组合都进行调查则共有3 X 5 X 5 X5 = 225组合,在这里运用了正交设计的方法 进行试验设计,共进行75种不同的组合,将这75种组合分成25组,每组中包含3个场景 (分别为3 个不同的种类),每一个被调查者将被给定3

4、个不同的场景。每个被调查者回答 的问题是在特定的场景能够在十次购物中选择网上购物的可能次数。我们总共访问了 197 名在京大学生,得到了在588种场景下他们对网络购物的使用情况的有效回答。3. 模型介绍市场营销中常用的分析陈述偏好数据的方法是联合分析(conjoint analysis),我们这里 使用泊松回归模型,因为:(1)因变量不是受访者对场景的排序,而是使用网络购物的次数, 它是一个取值为离散整数的变量,可以假设服从泊松分布;(2)可以对泊松回归模型进一步 应用潜在分类模型分析受访者的异质性。我们首先介绍泊松回归模型和潜在分类模型,然后 介绍如何应用最大似然法和EM算法估计参数。令Y为

5、第i li =人,1 )个个体在面临第j l j = 1,.,J )种场景时的选择,服从参数 ij为九的泊松分布。因为从平均的意义上来讲,九取值越大意味着受访者越倾向于多次使用 ijij网络购物,所以In九可理解为该场景的效用(utility),它是这个场景各因素水平和受访者ij个人特征的函数:ln九=X卩,其中:x是K维协变量,二P , P,,P 是参数, ij ijkijk01 K体现了受访者对协变量变化的反映, 如果假设它是常数, 则表明受访者是同质的 (Homogeneity),但我们知道,不同受访者对不同的协变量的重要程度看法是不一样的,也 就是说人群有异质性(Heterogenei

6、ty),处理这种问题的办法是假设为一个随机变量,服 从概率分布兀()。这里我们可以假设兀()为一个连续的多元密度函数,但由于无法判定哪种形式以及在参数估计的时候很难计算多维积分,所以一般来说我们不采取这种方式,取 而代之的是假设兀()是一个离散的多元分布,取值为 = P , P ,., P ,相应的概率 s0 s 1sKs密度是兀,s = 1,.,S,S的大小以及和兀的取值均由数据估计得到。我们称这种方法 ss s为潜在分类模型或者离散随机系数模型(discrete random-coefficient model)在上述模型假定下,我们知道第i个个体在面临第j种场景时,给定参数取值为时, s

7、泊松分布的参数九( )二exp(p P x )。则第i个个体的无条件概率密度为:i j s0 sks ijkkITFT 九( ) yj exp(九( ) 乙11 耳 s1 js 兀( )y !ss=1 j Tij如果使用最大似然法估计参数,样本的似然函数可以写成T FrT1 九( )yij exp(九( )L二y sgs k( )y !si=1 s=1 j=1ijijsijs1)2)4. 估计方法 可以看到似然函数的形式很复杂,即使使用数值算法,也不容易找到全局最优的最大似然估计。这里我们使用 EM 算法。引入缺失变量:f 1如果第i个个体来自第s个潜在类u =仁卄儿(3)is o其他假定,u

8、的分布为独立同分布,密度函数是兀,则f (u |兀)=F兀uis,其中ississ=1u = (u ,.,u ),兀=(兀,.,兀)。完全对数似然函数可写成:ii 1iS1SL =F F FI j)yj exp(九( ):一与一%兀is ( 4 )Cy !siji =1s =1j =1LnL = TT u ln LCisi| s+u ln 兀iss( 5)i =1 s =1i =1 s =1j 九(0 ) yijexp(九(0 )其中,L =11 ijsi4siIsy !j=1ij应用EM算法,首先给定初始参数估计值(o),兀(0)。之后的迭代(b = 0,1,.,B )过程ss中,E步就是在

9、给定观测数据和参数估计0(b),兀(b)的情况下,对完全对数似然函数以u的 s sis分布求期望,因为(5)中完全对数似然函数是u的线性函数,所以它的期望也是u期望isis的线性函数。为了求u给定观测数据和参数估计0),兀(b)的条件期望,我们需要寻找它的iss s条件分布。因为f(u ,y 10 ,兀)=i ij1 (L 兀)u,,g (y I 0 ,兀)=工iIssij s sisSs=1L兀i|ss =1,所以g (u I y , 0 ,兀)=H (L 兀)i ij s si| ss =1i /工L兀isi|ss =1。则u的条件期望是:w = Eu I y , 0 ,兀=L 兀isis

10、 ij s si|s/工L兀i|ss =1所以在E步得到的完全对数似然函数的期望是:ELnL I y ,0(b),兀(b)=工为 w)LnL +工为 w(b)ln 兀C i j s sisiI sisi=1 s=1i=1 s=17)M步即是最大化(7)式得到更新的0(b+D,兀(b+D。可以看到(7)式右侧第一项仅与0(b)有 s ss关,并且和式的每一项与一个s对应,(7)式右侧第二项仅与兀(b)有关,可以单独优化,大s大降低了似然函数的复杂度。此外,EM算法所得估计量的均方误差可以由Louis公式计算 而得。5. 数据分析 应用上述模型分析大学生网络购物数据,首先把分类变量(商品种类)转化

11、为0、1 变量,即种类为服饰 种类不是服饰种类为化妆品 种类不是不是化妆品当X 和X同时取0时,表示种类为文体。12我们使用BIC准则来确定S的取值。从S=1开始,模型的BIC开始下降,并且到某一 值时,开始上升。我们就选择使得BIC取最小值的S。从表1可以看出S=3。表2给出了模型在S=3和S=1 (没有异质性)时的参数估计值。当S=1 (假设受访者没 有异质性时),受访者整体表现出更倾向于多次购买文体类商品,使用次数随商品价格下降,增加卖家或网站的信誉以及介绍商品的详细程度可以增加受访者的使用网络购物的次数。当 S=3 时,可以看到受访者分为三类,在网络购物的使用次数上,几个因素对这三类受

12、访者有 着不同的影响。根据表2 的结果,第一类受访者(约占18.89%)更倾向于购买文体类商品, 也倾向于购买价格便宜的商品,并重视卖家或网站的信誉程度和介绍商品的详细情况;第二 类受访者(约占 48.62%)不在乎商品的种类、价格、以及介绍的详细情况,只注重网站的 信誉;第三类受访者(约占 32.49%)更倾向于购买文体类商品,不重视商品的价格和卖家 或网站的信誉程度,但较看重介绍商品的详细情况。表 1:BIC 准则潜在类别估计参数的个数-Log LikelihoodBIC值161321.6941340.8242131257.9951299.4443201213.4821277.250427

13、1203.6211286.518表2:参数估计值泊松回归模型(潜在类别S=3)泊松回归(S=1)类别1的概 率 p=0.1889类别2的概 率 p=0.4862类别3的概 率 p=0.3249加权均值截距-0.11390.17061.2464*0.46630.5989*(0.5127)(0.1898)(0.1959)(0.2529)(0.1056)类别(服饰)-1.8109*-0.1476-0.2399*-0.4918*-0.3221*(0.3731)(0.1069)(0.09600)(0.1537)(0.05622)类别(化妆-2.5615*0.01659-1.7587*-1.0472*-0

14、.7061*品)(0.5693)(0.09781)(0.1894)(0.2166)(0.06369)商品的价格-0.5378*-0.00466-0.02828-0.1131-0.0801*(0.1724)(0.06163)(0.06243)(0.08282)(0.03469)卖家或网站0.3798*0.2424*0.056490.2080*0.1814*的信誉度(0.08954)(0.03018)(0.03384)(0.04258)(0.01772)介绍商品的0.1784*0.050130.1142*0.09520*0.09225*详细程度(0.06997)(0.02986)(0.03644)

15、(0.03957)(0.01749)注:括号中是参数估计的标准误差,其中*代表0.05的显著性水平,*代表 0.01的显 著性水平。6. 总结本案例应用潜在分类的泊松回归模型及EM算法分析了大学生对网络购物的使用情况。最终得到三类人群,他们对商品类型、价格、卖家或网站的信誉度、以及介绍商品的详细程 度有着不同的重视程度,网络营销者可以根据此结果制定不同的营销策略。此外,我们还可 以进一步根据模型估计结果得到每个个体属于哪一类,从而分析这三类人在个人特征方面的 差异。参考文献Lo, Hing-Po and Wendy Lam (2001), A Latent Class Model Applied to Stated Preference Data, inHensher, D. (ed.) Travel Behaviour Research he Leading Edge, Pergamon Press

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!