第一步:爬虫获取优秀作者买单

由于 Google scholar 没有官方的 API,我就选择了 semantic scholar 这个网站,跟 Google scholar 是基本上一样的,但是 api 非常好用。我写了两种逻辑来获取作者,分别对应 Excel 里的两页。第一页是直接搜索高 在 llm 领域的高citation 的作者,第二页是搜索高 citations 的文章,并且获取所有的作者。

代码:

Step 1-Find Authors with High Citations In LLM topics

  1. 第一种方法就是历遍各种 llm文章的作者, 遇到没见过的作者就获取他的文章引用数据。注意这些数字跟 Google 上的有一定的偏差,但是不影响我们使用,因为这是个定性而不是定量的研究,一个作者到底有 8000 还是10000 的引用没有实质上的区别。
  2. 第二种的方法获取了很多关于DeepSeek 的文章,这些人必然都还在 DeepSeek 上班,所以效果很一般。我基本上看到文章的名字里有 DeepSeek 就不用去查作者了。

第二步:寻找作者们的简介

寻找作者的身份时(founder,CEO)也有难题。首先就是这些作者都还在别的地方上班,比如上面提到的 DeepSeek。其次中文名拼音的重复性太大,网上不能报身份证。linkedin 这个 source 的效果也不好,因为linkedin 在中国早已退出,对中国的年轻科研人员吸引力几乎没有。最后我还是使用了 Google scholar 来搜索人名,并且期待他们的个人简介上写了自己是 CEO/ founder。

代码:

Step 2-Scrape the authors’ Google Scholar to get their introduction.

最后结果:

all_data_authors.xlsx

第三步:针对找到的人以及其创业公司,做相应的 research

Prompt AI

Asari AI

Squirrel Ai Learning

Analemma

使用的 alternative data:

  1. 有 app 的话就可以去 Sensor Tower 来看数据(prompt.ai
  2. 爬取linkedin profile 来看大家对官宣创业的反馈,发现都是两百个赞左右。我也爬了在 linkedin 上搜索公司名称看看能不能找到别人的讨论,但是根本搜不到有用的,都是不相关的结果,所以这条路就不走了。
  3. Twitter(X)和 YouTube 都没有太多的信息,不管是 founder 自己,还是别人的讨论,都约等于没有,并且如果搜索的话全都是无关信息。
  4. CrunchBase 也有数据可查,但是刚开始的融资信息都比较模糊。

最后推荐:

我选择松鼠 AI 。因为这个创始人以前创业过,失败过,这次是在原有的基础上卷土重来。加盟商的业务模式也能帮助公司快速发展和进入新市场打开局面。北美的消费能力和对教育的重视让这个业务有机会。 我认为商业并不是单纯技术上的比拼,而是要下沉到市场里去让消费者认识,认可,并且最后买单。这个创始人的前一段国内创业就体现了这种撸起袖子加油干的接地气的能力,并且我作为投资人,认为不能太有道德洁癖,此人的上一段经历的确有很多争议,但是他愿意安抚大家的情绪,没有一走了之,并且还愿意开拓海外市场,我认为这种打法在这个竞争激烈的大环境里有他生存下去的前景。