从上表中可以看到,前8个搜索结果,都是标题命中,文本得分一致,因此,按照我们的假设,评论数越多的App,排名越靠前。Top3的App基本符合这个规律,而后5个,因为有3个评论较少,不太好判别,但总体上还是符合我们假设的。而第9和第10名的App,为关键词命中,这两个的排序也符合我们的假设。但我们也发现,像“墨迹天气”这样的App,下载量应该是搜索排名第1 App的几十倍,但搜索排名却非常靠后,而第一名App也没有刷搜索排名的迹象,因此可以认为,App标题,特别是正标题命中的得分,远大于关键词命中得分。像Appstore就有一些App利用了这个规则,把自己App的正标题命名为“找工作”、“信用卡”之类的行业词。通过对500个热度在4605和4700之间的词的排名进行预测,大致准确率约为55%左右。热度更高的词,因为刷的比例过高,预测准确率会差一些。根据下载量预估预测排名因为目前国内刷评论的现象普遍存在,因此,评论数与下载量的正比例关系并不完全准确,预测的准确率稍差,也在情理之中。而国外预测App下载量的方法,一般都是根据评论+榜单的排名情况。 由于榜单刷起来成本还是要高很多的,因此相对更可信一些。根据榜单预测下载量的方法,可以Google “INFERRING APP DEMAND FROM PUBLICLY AVAILABLE DATA”。同样还是针对搜索词“温度计”,其Top10的搜索结果和对应的下载量估计如下表所示:表2 搜索词“温度计”的搜索结果和对应下载量估计
这个表的结果大致和评论表数据大致一致,但因为同时利用了评论数和榜单情况来预测下载量,就避免了一些App数据为0的情况,因此,预测的准确率会更高一些。当然,我们根据国外的方法,预测的App日均下载量都偏高,但因为搜索排名只考虑相对的大小,故不影响排序预测。同样通过对500个热度在4605和4700之间的词的排名进行预测,大致准确率约为60%左右,比用评论估计的准确率略高。目前我们的线上也提供了基于评论和下载的排名分析服务,具体如下图所示:
上述两种方法,都是直接利用苹果的排序算法,但因为排序中的App质量分估计较为困难,国内App普遍存在刷排名的情况,因此准确率在60%左右也不奇怪,这个准确度作为选词参考,应该是够用的,但如果需要更精准的估计App的搜索排名,就需要另辟蹊径了。我们发现,由于Appstore有效的关键词也就在10万以内,分配的各个类别的更少,因此存在大量App选用同一关键词的情况,也就是说两个App可能有大量共有的关键词。因为这些关键词的排名是已知的,因此可以利用“共有关键词”对App进行排名估计。举个例子,好比App1和App2,有100个共有关键词,而其中有99个关键词,App1排名都比App2靠前。那么对于一个新的共有关键词,App1理应比App2排名更好。我们仍以搜索词“温度计”为例,比较排名第1的“Thermo ~ 温度计”和排名第2的“实时户外温度(温度计)”,两个app的共同关键词如图所示:
图2 App共有关键词比较,左侧“我的排名”对应“Thermo ~ 温度计”,右侧“竞品排名”对应“实时户外温度(温度计)”我们只考虑热度大于等于4605的词, 这两个App拥有共同的关键词数为16个。在这些关键词下,“Thermo ~ 温度计”名次靠前的有13个,“实时户外温度(温度计)”名次靠前的有3个。因此,如果新出现一个关键词,我们会认为“Thermo ~ 温度计”排名“实时户外温度(温度计)”靠前。我们继续分析下“实时户外温度(温度计)”名次靠前的例子,“温度计测量”、“测量温度”这2个词,可以看到,这些都是标题部分匹配的例子,也就说两个App的标题都只匹配了“温度”这个词,而没有匹配“测量”。而进一步分析发现,“实时户外温度(温度计)”关键词中是包含“测量”这个词的,而“Thermo ~ 温度计”并不包含“测量”。因此,造成“实时户外温度(温度计)”的文本得分会高一些。基于这种情况,我们进一步讲共有关键词的匹配分类为标题匹配、关键词匹配等多种情况进行分析。
Fig3 “Thermo ~ 温度计”App的关键词中,不包含“测量”这个词
Fig4 “实时户外温度(温度计)”App 的关键词中,包含了“测量”这个词利用“共有关键词”可以分析两个App的排名对比情况,而对新增关键词的App,只需要逐一对比关键词下现有的App,就可以定位该新App的排名情况了。通过对500个热度在4605和4700之间的词的排名进行预测, “共有关键词”做搜索排名预测的准确率大于70%。因为“共有关键词”排名预测计算量较大,目前只在内部选词系统中使用,还在持续优化中,后续有望将准确率优化到80%以上,达到可用的标准后,会推出线上服务。本文由刘新鸣@appbk.com 投稿于,转载请注明作者和信息来源。