Posts Tagged ‘web2.0’

谁有英文单词库么?

March 8th, 2009

抱歉最近更新很水(当然,我已经发现文章越水时读者越多的规律了@__@)……再过一周就好了。

image

问个问题:谁有英文单词库么

例如金山词霸词库,或者什么背单词软件的词库?(单词,例句,解释,记忆法。。。格式标准点的,什么都行)

如果没有大词库,谁有小份小份的记忆法单词表也行。例如“Goblet: 高脚杯——gob读起来像“高杯”,goblet连在一起就是“高杯立地”,当然是高脚杯”,或者类似“aerosol: aero,空气的意思;sol,走的意思,根据词根词缀这个词是”在空气里走”的意思,所以代表“浮质””……如果你手上有一个电子文档,文档里有一些单词,单词后面有奇奇怪怪记忆法,欢迎留言告诉我,谢了!

ps. 一般的红宝黑宝不择手段什么的我都已经有了……目前是需要更多的:)

谢谢!:)

Popularity: 2% [?]

Collaborative Filtering——电子商务商品推荐算法科普

April 20th, 2008

Collaborative Filtering

简单说就是,找到和你喜好类似的那群人,看他们买了什么你还没买的东西,推荐给你。

简化举例来说,你买了哈利波特,羽泉的CD,新宋……他会去找其他买了类似产品的同学们:A, B, C。然后他看到A和B都还买了《九州》,就会推荐你《九州》;你买了《沉默的大多数》,买了《黄金时代》,买了《黑铁时代》,系统去找到了其他买这些书的同学们:D, E, F,发现这三位同学都买了《白银时代》,于是把这本书推荐给你。

详细来讲(当然其实还是省略大量实现上的细节),假设www.MarsOpinion.com(我的博客:P)有M个客户,N种产品,就把每个客户当成一个N维的项量,客户见的相似度可以用这两个项量的COS计算

fomula

找到和你“相似”的那些消费者之后,就可以给其他商品打分了,越多和你相似的消费者买了商品X,说明商品X越可能吸引你,所以可以以“有多少和你相似的消费者购买了这个商品”作为这个商品的分数。举例来说:和你相似的消费者中,80个买了《青铜时代》,《白银时代》,70个买了《失乐园》,那么《青铜时代》和《白银时代》分数就是80,《失乐园》分数就是70,要推荐的话就应该先推荐《青铜时代》、《白银时代》,再推荐《失乐园》。

这里还有两点需要考虑,第一是不要推荐客户已经购买的东西,例如如果你已经购买过《青铜时代》,就应该只给你推荐《白银时代》(至少对于书是这样,对于重复购买的消费品再议)。

第二就是要降低那些畅销产品的权重:举例来说,买哈利波特的人动辄百万计,因为你和别人都买了哈利波特而向你推荐他所购买的商品,其实没有什么意义;相反,如果你买了本《MarsOpinion.com电子商务推荐算法》,这本书一共就4个人买过,另外三个人都买了《MarsOpinion.com鬼扯全集》,那么你很可能也会喜欢那本书。因为越大众化的爱好,越难代表一个人的特质(从而没有办法通过这个特质去寻找类似的人),而越小众的爱好,相对能更加说明者个人某方面强烈的偏好。——基本上,解决这个问题的方法很多,有一种就是在设置项量时,将值设置为该产品销量的倒数。例如你买了《哈利波特》(假设有100万人买了它),那么代表你的那个项量的《哈利波特》那个值就是百万分之一;而你如果买了《MarsOpinion.com电子商务推荐算法》,那么你相对应的那个值就是四分之一。

整个算法的复杂度是O(MN),但是因为每个客户购买的商品数量都很有限(远远小于N),所以复杂度很可能降为O(M+N),可是如果产品数量巨大的话,这个复杂度仍然是很可怕的,而相关的降低复杂度的算法(例如限制取样的客户样本大小或者商品样本大小)都会显著影响推荐结果的精度。

Popularity: 3% [?]

前言——电子商务商品推荐算法科普

April 20th, 2008

 

最近比较关注Customer Segmentation和Personalized Recommendation。

国内电子商务圈好像很少提起这件事情(我之前写过Use personalized recommendation algorithm to enhance conversion rate for ecommerce website,不过也没什么反响)……所以随便写点科普一下。

本文大部分知识来自于一份叫做Item-to-Item Collaborative Filtering的文档,如果有条件,建议看原文。

这个文档的好处是:

  1. 写很短,只有5页,其它相关论文动辄上百页,打印出来都觉得是在浪费森林
  2. 写很简单,我这种技术白痴也可以看
  3. 号称是Amazon官方算法

坏处是:

  1. 写得很简单,所以有基础的同学们不用看了。真想了解的话可以用英文搜索相关关键词,研究论文还是很多的
  2. 2003年出的,比较古老

 

文章主要比较了三种算法:

  • Collaborative Filtering
  • Cluster models
  • Item-to-Item Collaborative Filtering

下面分几个post来详细说:

Popularity: 2% [?]

有趣的点子

December 11th, 2007

(从事电子商务,关注互联网发展,探讨各种非典型网络营销、网络创业idea,欢迎订阅我的博客~:)

从mr6网站上看来的:

“好久好久以前,我自己曾想過一個小小的點子,OpinionsAboutMe.com,中文翻成「中肯的意見」。目前許多網站都有開放這種東西,但都抓不到人們心中的鑽石。譬如餐館的官方網站貼一個「意見箱」,有任何意見都可以寫,除非真的有很不愉快的經驗,我就算被強迫填寫,也一定是亂寫一通,草草過關了事;雖然所有社群網站、BSP其實早就讓個人可以接收「悄悄話」,不過這種留言目前仍是很散的。有時,我們或許都需要大量周邊的朋友,為我們「提供某件事情的中肯建議」?OpinionsAboutMe就像一個一個簡易版卻強大的「意見箱」,新娘選了三套禮服,不想在結婚當天才曝露,希望先徵求一下身邊所有熟或不熟的朋友意見,該搭配哪一條項鏈?該先穿紅色的禮服還是先穿橘色的?假如一一的問,慢了一點,OpinionsAboutMe讓個人可以問問題,以鬼速寄給身邊的人,人人可以「匿名」回答。雖然「匿名」,但意見卻非常真,而且直接了當。至於要如何讓朋友因為「匿名」而不好好填寫,則又可以導入「token制」,就是到最後你可以查出有誰還沒有寫;每次寫,都要從第一題回答到最後一題,中間穿插數學題,全部答完才算「寫完」。OpinionsAboutMe透過實體的關係和網路的方式,一實一虛、一真一匿,可以搓玩出不同的組合,最後的結果,就是讓大家以非常簡單的方式,得到了一些以前得不到的資訊。而至於這個網站該怎麼利用這麼多資訊來爆紅,或許可將其中設定「公開」的意見調查問題,直接放在首頁,像hotornot一樣一則一則播放出來,有照片的優先播放?答問者亦有區隔化,從首頁直接回答的,和會員所指定的回答者分開。”

觉得这个点子很棒(虽然很难做大,不过很容易开始,就好像我之前想到的 数字故事),也很喜欢这个域名(看到这个域名的时候想到另外一个相近的点子)。

所以跑去这个网站看了一下,发现网站不存在。

于是跑去查了一下域名,发现居然还没有被注册。

……

于是我顺手注册掉了

改天把我根据mr6点子想到的东西放上去,呵呵(如果有空做的话)……

===========时间的分隔线===============

看到有手脚更快的人了……

http://blog.xdite.net/?p=509 这位同学在看完post之后,花了一个小时做了个OpinionsAboutMr6

赞一下这位身手敏捷的同学,也顺便赞美一下ROR(他用ROR开发的)……

Popularity: 1% [?]

Google Image Labeler,天才的设计

November 14th, 2007

snap1.jpg 

  Genius Move!

  之前考虑过一个idea,关于怎样利用游戏吸引用户参与,再通过程序互动让用户作出贡献的机制(嗯,最文学的版本似乎是王小波《青铜时代》里面的水车,用户推门的时候会带动水车——或者是有个把手上写着"请推我一下"——记不清了,总而言之就是想办法利用其他人的免费劳动力)

  想啊想啊,什么也没想出来 >____<

  也没看到有人做到(像delicious,flikr的标签机制有一点这个意思,但是不够赤裸裸)

  直到看到Google同学这个Google Image Labeler。(链接http://images.google.com/imagelabeler/)(好吧,我承认我很土,刚知道它原来进行一年了)

 

  想出来的人真是天才啊。 » Read more: Google Image Labeler,天才的设计

Popularity: 1% [?]

数字的故事

November 9th, 2007

 

很多数字本身就是故事。

那些数字安安静静躺在书页的角落,或者商场的标价牌上。

可是看到的时候,

页码却变成了中学时第一个喜欢的女生的学号,而小小的价牌上,写的是她的生日。

 

很多数字本身就是故事。

每个人心里面都有一些数字是特殊的,每个人都有故事,只是不一定希望身边的人知道。

可偶尔还是想表达出来。

就好像把故事说给一个树洞去听,它总是安安静静。

 

========== 抒情铺垫完毕 ==========

讲正事!

如果做个网站,让每个人把自己心里面的数字和故事表达进去呢?

进到首页,只是简简单单的一个输入框,和最新的其他人的几句故事的节选,比如

  • 37: 第一个喜欢的女生的学号,那时她坐在我后面,总是显得很文静,很少说话。喜欢回头逗她,她笑起来很好看……
  • 95: 小时候家里很穷——或者说那个时候大家都没什么钱。一贯懂事的我却看上了一套当时“天价”的衣服……
  • 4897: 第一个月拿到手的工资数目!哈哈!现在工资条还在抽屉里摆着,第一次赚到钱啊,爽!
  • ……(诸如此类)

 

然后希望你(就是你啦)把自己有故事的数字也输入进去(比如1112),敲一下“回车”。

然后页面上就都是关于1112的故事。

可能有人在这一天,终于和自己青梅竹马的爱人结婚。

可能这是某个人创业时租的第一间办公室的门牌号,有那时满怀冲劲的两个小伙子,才有之后的梦想实现。

还有可能,1112仅仅是某一个航班名字,他某次出差时乘坐的航班,在那架飞机上,他认识了自己之后的她。

……

相同的数字,不同的故事。

下面再有一个输入框。

你可以任意选一个名字(不需要注册或者登录),把自己的故事说出来。

说1112对你来说是什么意义。

仅仅是说出来,表达出来,什么也不求。

=========== 继续抒情 ===========

 

我们拥有一样的线索,不一样的故事。

我们在这里分享,却互不相识。

 

 

=========== 继续说正经的 ============

 

感觉是个很简单的应用。

可以测试我一个晚上学完Ruby的成效……

如果有空的话,可能找个周末实现一下:)

Popularity: 1% [?]

自进化的社区管理机制

April 23rd, 2007

 (转载请注明作者MarsOcean,出处http://www.marsopinion.com) 

  看到客齐集引入了“大众评审”之类概念,忽然想起自己之前想的一套社区管理模式。 

  

  所谓社区管理,目标很简单:激励那些“做好事”的人,惩罚“做坏事”的。那么要做的事情就成了三件:

  1。定义什么是“好的行为”,什么是“坏的行为”。(例如一般而言,发表引人讨论的精华帖就是好的行为,而发广告帖、粗口就是坏的行为)

  2。拿那个定义去套所有的“用户产生内容”(例如帖子、图片、视频)……看看是好是坏

  3。最后是奖惩,奖励“好人”,惩罚“坏人”。(例如给精华帖作者奖励积分,删除广告帖并且剥夺作者发帖权力一周之类)

  

  那么就出现了两个新的问题:

  1。很难把“好”、“坏”定义清楚,只要你有规则,能够下定义,就必然有漏洞。

  2。一个个去审查内容的话,管理成本太高。

  

  所以聪明点的会这样解决:

  1。采用判例法,而不完全依赖成文的规则。这样好处是可以面对一切问题,坏处是麻烦。

  2。把权力下放给用户,例如在帖子旁边加上“有用/没用/举报”的按钮,或者根据回应数来判断内容精彩程度。

  

  可是这样还是不能完全解决问题:

  1。如上所说,判例法太麻烦,而且解释起来很容易引起纷争;

  2。权力下放太少可能没有意义(还是得自己费神去管),下放太多很容易失去对内容的控制力。特别是在一些没有是非道理可言的事情上,可能会丧失影响内容倾向性的能力。(例如电子商务网站附带的社区,虽然要激励客户留言,但是对于客户负面评价总归是不希望太多的,而且不希望他们变成精华帖获得更多展示机会)

  

  听上去解决方法应该是:

  下放基础权力(例如给帖子加分,减分),等帖子分数到达临界值,再由管理员判断是否加精或者删除。

  可是这样的话,管理员还是要做很多事情,而且整个社区的倾向未必朝着管理员期望的方向发展(例如用户看到有人指出商品缺陷往往会表示“这个帖子有用”然后加分,可是这可能并不是管理员想加精华的那类帖子。他可能更想找对网站歌功颂德的,但是这类帖子只有很少几个人会说“有用”,管理员还是得自己去翻)。

  

  如果沿用“怎样把大象放进冰箱”的解决思路,这个问题是可以解决的。

  解决方法就是:让那些符合管理员思路的用户拥有更大的权力,让不符合思路的用户权力变小。

   

  用系统怎样实现呢?(下面是简化版,看个意思就好)

  1. 给每个内容(例如帖子)设置一个基础分数,例如50分。

  2. 给每个会员设置一个基础权值,例如10分。

  3. 客户每给一个内容“好评”,则在这个内容的分数上加上该客户的权值数,差评则减去。

  4. 内容的分数低于0份或者高于100分,则进入管理员的“差帖”和“好帖”池,管理员可以认证这些帖为“好帖”或者“坏帖”。

  5. 下面是最重要的,就是给那些和管理员进行了同方向操作的人增加权值5,进行了反方向操作的人降低权值5。(例如Jack发现一个帖子在描述“我爱XX网,因为……”,觉得很有道理,给了好评,然后管理员发现了这个帖子,看了觉得很高兴,把帖子标记为精华——则这个时候Jack的权值将从10上升到15;而如果Lucy看到一个帖子说“我觉得另一个论坛XX网比这里好多了”,觉得有道理给了好评,管理员看到了很生气把这个广告帖子屏蔽掉了,这时Lucy的权值就将从10降到5。之后Jack发表意见的影响力,将相当于3个Lucy。)

  6. 这样操作一段时间,和管理员管理意图相近的用户权限就会升高,而和管理员意图不同(对于管理员而言这些是扰乱信息)的用户影响力将被忽略不计。这样群体管理智慧就能跟符合网站所有这的意图。(抱歉,我知道这样似乎不合Web2.0的理念,但是我觉得作为社区创建者,往往都有自己的意图在其中,不可能真的对社区民主化放任自流的)。后期也可以根据用户权值进行实际的奖励,以激励这些协助维护社区的用户。

  

  简单讲,就是增强那些符合自己意图的用户的影响力,同时削弱那些不符合自己意图的用户影响力。这样不仅可以更高效的进行信息筛选,而且筛选信息的方向将更符合自己的期望。

Popularity: 2% [?]