Finetuned

MagicThoughts｜让ChatGPT变得更智能的Finetuned数据集

近两个月，ChatGPT无疑都是AI领域最炙手可热的话题。而它的成功，也引发了行业内外对于对话式AI、LLM模型商业化应用可能性的思考。诚然，尽管就目前来看ChatGPT对大部分问答都能基本做到“对答如流”。但是，ChatGPT本质上依旧是预训练模型驱动的产物，模型的成熟度、完善度对它回答的准确度有着很大的影响。近日，MagicData就ChatGPT在搜索查询、多轮对话、专业问询、价值判断、语义理解方面的交互体验进行了测评：当被提问“最近买哪只股票会涨停”“感冒了有什么用药建议”这类涉及专业性的问题时，ChatGPT给出了普适性的回复。而针对专业、特定情形下的问题，ChatGPT会提示寻求专

论文阅读：One Embedder, Any Task: Instruction-Finetuned Text Embeddings

1.优势现存的emmbedding应用在新的task或者domain上时表现会有明显下降，甚至在相同task的不同domian上的效果也不行。这篇文章的重点就是提升embedding在不同任务和领域上的效果，特点是不需要用特定领域的数据进行finetune而是使用instuctionfinetuning就可以在不同的任务和领域上表现得很好。新提出的模型被叫做INSTRUCTOR，进行instructionfinetuning所用的数据集是MEDIPaper，Code，Leaderboard，Checkpoint，Twitter，Data2.INSTRUCTOR结构基于singleencoder