由于 Google scholar 没有官方的 API,我就选择了 semantic scholar 这个网站,跟 Google scholar 是基本上一样的,但是 api 非常好用。我写了两种逻辑来获取作者,分别对应 Excel 里的两页。第一页是直接搜索高 在 llm 领域的高citation 的作者,第二页是搜索高 citations 的文章,并且获取所有的作者。
代码:
Step 1-Find Authors with High Citations In LLM topics
寻找作者的身份时(founder,CEO)也有难题。首先就是这些作者都还在别的地方上班,比如上面提到的 DeepSeek。其次中文名拼音的重复性太大,网上不能报身份证。linkedin 这个 source 的效果也不好,因为linkedin 在中国早已退出,对中国的年轻科研人员吸引力几乎没有。最后我还是使用了 Google scholar 来搜索人名,并且期待他们的个人简介上写了自己是 CEO/ founder。
代码:
Step 2-Scrape the authors’ Google Scholar to get their introduction.
最后结果:
我选择松鼠 AI 。因为这个创始人以前创业过,失败过,这次是在原有的基础上卷土重来。加盟商的业务模式也能帮助公司快速发展和进入新市场打开局面。北美的消费能力和对教育的重视让这个业务有机会。 我认为商业并不是单纯技术上的比拼,而是要下沉到市场里去让消费者认识,认可,并且最后买单。这个创始人的前一段国内创业就体现了这种撸起袖子加油干的接地气的能力,并且我作为投资人,认为不能太有道德洁癖,此人的上一段经历的确有很多争议,但是他愿意安抚大家的情绪,没有一走了之,并且还愿意开拓海外市场,我认为这种打法在这个竞争激烈的大环境里有他生存下去的前景。