[原创]标签的缺陷(四)
发表于 06-04-26 09:07
只看楼主
网友给标签的过程,其实比表面看起来的要复杂。这个过程至少包括两步:第一,对目标进行分析,确定其主题,也就是一个主题分析的过程。第二步,网友在自己的知识库里搜索语词,选择与目标主题对应的语词。
这两个步骤都很微妙。主题分析时,很可能带上个人倾向,只选择自己喜欢的部分而不是全部。比如《一个华尔街瘾君子的自白》这本书,有人确定的主题是“人物传记”,有人则是“投资”。从学科的角度来分析,这两种主题分析结果都是必然的。但很可能有人会用“创业”这个主题,因为他个人刚好对这个主题感兴趣。
语词选择时,却与个人的文化背景有关。相同的一个词,有的人会喜欢使用,有的人则不喜欢。有的词你听到没有感觉,有的词你听到了觉得是一种侮辱。对语词的内涵和外延,不同的人是由不同的理解的。这是第一点。第二点,当确定语词和主题的对应关系时,不同的人要求也不同。比如金庸《天龙八部》,是一部武侠小说,有的人会选择“武侠”,有的人会选择“武侠小说”,还有人觉得“小说”这个词就足够对应这个主题了,有的人甚至则选择“文学作品”。语词的外延有大小之分,很多人在标签时却不在乎这一点。
这样,在具体给标签的时候,就出现了一条数据给出多个标签的结果,有的标签被人多次使用,有的只被很少的使用。这是网站设计者当初预想的结果。他们设计的思想是,使用的最多的语词/标签是最大众化的,也是最能代表该目标(在豆瓣网是图书、影片、cd)的语词。展示在具体某一本书下面的一系列标签,可以让人更深更全面地了解图书/影片/cd的内容。
在网友的个人主页,网站给出了他曾使用的标签。毫不怀疑,网友可以通过他自己的标签,进行扩大搜索,找到自己需要的东西。相同的文化背景为这一点提供了足够的支持。但因为前面这两个步骤的个性倾向,必然导致某些数据是不符合他的需要的。而那些外延很大的标签下的数据更是冗余的东西。
我在考虑,网站的干预是否可以采用引导的方式,定期确定一些外延很大的标签,或者当某个标签的数据量达到某个限值时,提示网友选择一些外延较小的标签。或者在标签列表中,对标签关系进行分群组织,将相关标签集中在一起。当然,这是要忽略一些相关性很小的数据。否则所有的标签还是都在一起的,无法达到分群的目的。
发表于 06-06-16 23:15
只看该作者
4篇都看完了,感觉楼主有些地方是由于缺乏对tag背后的技术的了解而觉得tag存在某些缺陷。
tag和图书馆的分类是完全不同的,tag不是一个简单的过滤器。可能在douban上tag仅仅是一个简单的过滤器,但在del.icio.us上不是,而发展起来肯定能有更大的用途。
分类,是一次性的,永远不变化的;然而tag不是,tag的数据是非常丰富的,一个事物它的各个tag的累加数呈现出什么规律,一个tag的累加数对于时间轴呈现出什么规律,这些都是可以作数据挖掘的,而挖掘出来的东西才是真正有意义的,用于提高用户体验的。例如楼主所提到的,当tag的累加数过大时就应该提示选用外延较小的tag,或者相关tag集中在一起,这些都属于基本的数据挖掘。
至于数据挖掘能够做到什么程度,这就看网站技术人员的能力了。但无论怎么说,tag的作用要远大于一个过滤器,如果一个网站让用户仅把tag当作过滤器来使用那它的设计就有点问题了。
发表于 06-06-24 09:42
只看该作者
4篇都看完了,感觉楼主纯粹是以豆瓣作为研究对象,这是不恰当的。
tag技术本身就是国外研究的,如何发展和变化更应该以国外的典型站点为研究对象,比如社会化书签站中最为典型的Furl.net和del.icio.us。前者基于楼主说的限定分类基础上扩展,后者则是完全开放式的。
我觉得,解决楼主认为的问题所在,必须是靠技术手段,来解决tag的群组,靠人力对于现在的语言环境几乎是不可能的。
此外,tag技术对于使用者本身是否私用同样有不同的作用,如果是所有的tag只是自己写自己看,那完全可以不管其它人的tag;如果选择分类,仍然有好的分类站点可以挑选。
最后,我要说的是,社会化的一大缺陷,就是过多的内容和过杂的标签,影响了可读性,这个也是目前急待解决的问题。