余弦相似度算法优缺点_什么是余弦相似度_环球快讯
1、余弦相似度在向量空间模型中,文本泛指各种机器可读的记录。2、用D(
1、余弦相似度 在向量空间模型中,文本泛指各种机器可读的记录。
(资料图)
2、用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1<=k<=N。
3、例如一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c,d)。
4、对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度。
5、即D=D(T1,W1;T2,W2;…,Tn,Wn),简记为D=D(W1,W2,…,Wn),我们把它叫做文本D的向量表示。
6、其中Wk是Tk的权重,1<=k<=N。
7、在上面那个例子中,假设a、b、c、d的权重分别为30,20,20,10,那么该文本的向量表示为D(30,20,20,10)。
8、在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1,D2)常用向量之间夹角的余弦值表示,公式为:其中,W1k、W2k分别表示文本D1和D2第K个特征项的权值,1<=k<=N。
9、在自动归类中,我们可以利用类似的方法来计算待归类文档和某类目的相关度。
10、例如文本D1的特征项为a,b,c,d,权值分别为30,20,20,10,类目C1的特征项为a,c,d,e,权值分别为40,30,20,10,则D1的向量表示为D1(30,20,20,10,0),C1的向量表示为C1(40,0,30,20,10),则根据上式计算出来的文本D1与类目C1相关度是0.86那个相关度0.86是怎么算出来的?是这样的,抛开你的前面的赘述在数学当中,n维向量是 V{v1, v2, v3, ..., vn}他的模: |v| = sqrt ( v1*v1 + v2*v2 + ... + vn*vn )两个向量的点击 m*n = n1*m1 + n2*m2 + ...... + nn*mn相似度 = (m*n) /(|m|*|n|)物理意义就是两个向量的空间夹角的余弦数值对于你的例子d1*c1 = 30*40 + 20*0 + 20*30 + 10*20 + 0*10 = 2000|d1| = sqrt(30*30 +20*20 + 20*20 + 10*10 + 0*0) = sqrt(1800)|c1| = sqrt(40*40 + 0*0 + 30*30 + 20*20 + 10*10) = sqrt(3000)相似度 = d1*c1/(|d1|*|c1|)= 2000/sqrt(1800*3000)= 0.86066。
本文就为大家分享到这里,希望小伙伴们会喜欢。
关键词:
[ 相关文章 ]
1、余弦相似度在向量空间模型中,文本泛指各种机器可读的记录。2、用D(
跑在风里,是热爱生活的开始,人车合一,是热爱驾驶的基础,或许在每个
在装修铺地砖的时候会发现地砖与地砖之间是有缝隙的,看上去就不是很美
你们好,最近小活发现有诸多的小伙伴们对于香菇豆腐汤的做法大全家常菜
信用卡不还多久会被银行起诉?信用卡无意逾期了1次严重吗?下面是小编
1、乐队是由2个以上乐手组成的音乐表演组合的通称,也可以叫做乐团。2
截至2023年6月5日收盘,金逸影视(002905)报收于9 59元,上涨5 27%,换
大摩表示,调低指数目标反映盈利复苏延迟、货币前景疲软和地缘政治不确
新华社权威快报|科创50ETF期权在上交所正式上市交易---6月5日,科创50E
大家好,小万来为大家解答以上的问题。宋盈滨,关于宋盈滨介绍这个很多
□苑广阔距离全国统一高考还有三天,上海市杨浦高级中学高三学生盛
“作家电影总如诗,左岸当年逞一时,萨瓦河边小夜曲,陈丹燕变杜拉斯。
新一期汽开人气小区TOP排名出炉!房天下研究院数据显示,恒大首府6月第
6月2日下午,副市长王海艳主持召开全市旅游安全源头治理专班工作调度会
本周气温一路上扬夏装可以放心穿了,主流媒体,山西门户。山西新闻网是经
参考消息网6月4日报道据德新社汉堡6月4日报道,在汉堡举行的铁人三项欧洲锦标赛当天发生严重事故,摄影师乘
直播吧6月5日讯北京时间今天上午8点,NBA总决赛G2,掘金主场对阵热火。赛前迈克-马龙教练接受了记者采访。
1、梅西(8 28分)2、姆巴佩(7 8分)3、内马尔(7 71分)4、拉卡泽特(7 42分)16次助攻--第1129次射门--
在双方达成战略合作之际,酷狗音乐上线“丰华唱片”专题企划,从单曲、歌单、专辑、视频四个内容维度入手,一
近日神舟十六号“博士乘组”顺利进入天宫与“神十五”乘组实现“天宫会师”“神十五”乘组6个月的出差之旅
[ 相关新闻 ]
Copyright 2015-2022 现在医院网 版权所有 备案号:粤ICP备18023326号-5 联系邮箱:855 729 8@qq.com