Résumé
-
Deepseek est open-source et fonctionne ainsi que les meilleurs modèles d'IA, formé pour beaucoup moins
-
Développé par des ingénieurs chinois, il peut compresser des modèles complexes et fonctionner localement sur du matériel inférieur.
-
Des préoccupations existent concernant ses origines et ses biais potentiels.
Internet est en effervescence avec le nom « Deepseek ». Des sociétés d'IA comme OpenAI et NVIDIA voient les cours des actions s'éteindre, et les amateurs de l'IA se frottent les mains avec Glee partout dans le monde. Pourquoi ce nouvel entrant dans le monde de l'IA est-il si important?
Deepseek est une IA open-source avec de grandes affirmations
Comme GPT-O1 ou Claude, ou Llama, ou l'un des chéris AI actuels, Deepseek est un modèle d'IA génératif. Eh bien, il est plus précis de dire que c'est un groupe de modèles d'IA qui sont des variantes conçues pour différentes applications.
Contrairement, par exemple, les modèles GPT d'Openai, Deepseek est open source sous la licence MIT, qui permet une utilisation commerciale. Cela signifie que l'ensemble du fonctionnement interne du modèle est ouvert à voir. Tout le monde peut l'utiliser sans payer de frais de licence d'aucune sorte, et rien n'empêche quelqu'un de modifier ou de s'appuyer sur le travail qui a déjà été fait. C'est l'une des principales raisons pour lesquelles Deepseek a conduit à une perturbation du marché à court terme, ce qui pourrait se transformer en une correction du marché à long terme.
Cependant, rien de tout cela n'a vraiment d'importance si Deepseek n'est pas bon. L'autre facteur majeur qui fait que tout le monde parle de ce modèle d'IA est de son performance. Dans les références AI, Deepseek fonctionne ainsi que GPT-O1 et d'autres modèles génératifs Première. Encore mieux dans certains cas. C'est, bien sûr, quelque chose que l'on peut vérifier, mais la revendication vraiment choquante est la quantité de coût de développer ce modèle.
Deepseek affirme que le modèle a été formé pour moins de six millions de dollars. Ce qui ressemble à beaucoup d'argent jusqu'à ce que vous considériez que les modèles qu'il échange souffle avec un coût supérieur à cent millions de dollars à former. Non seulement cela, mais Deepseek a été formé sur du matériel moins puissant que ce qui est disponible pour les sociétés américaines comme Openai. Bien sûr, c'est l'une des affirmations qui n'est pas si facilement vérifiée, et il est possible que le montant cité soit bien inférieur à la vérité. Cependant, pour l'instant, il n'y a pas de pistolet fumer pour indiquer que les coûts étaient plus élevés que ce qui prétend.
Le dernier « Big Deal » que je pense mérite d'être mentionné sur Deepseek est la façon dont il a été utilisé pour « distiller » de grands modèles denses, denses et coûteux comme Llama en modèles plus petits avec des capacités de raisonnement comparables. Fondamentalement, Deepseek entraîne un modèle hors de modèles plus complexes plus complexes pour imiter ses sorties, sans toutes les machinations complexes sous le capot. Il compresse effectivement des modèles plus grands en plus petits avec (jusqu'à présent) quelques inconvénients apparents. Il s'agit d'un grand saut pour exécuter des modèles complexes localement, en utilisant moins de puissance et nécessitant moins de matériel.
Deepseek a été développé par des ingénieurs chinois
Deepseek est une startup dirigée par Liang Wenfeng (39 ans) qui a vu le succès pour la première fois comme un gestionnaire de fonds spéculatifs. Plus précisément, un gestionnaire de fonds spéculatifs quantitatifs. Il s'agit d'une approche de l'investissement qui utilise l'apprentissage automatique pour prédire les tendances du marché afin que les investisseurs puissent en profiter. C'est pourquoi Wenfeng avait déjà accès au matériel puissant nécessaire pour former un tel modèle.
Deepseek semble être ce qui équivaut à un projet passionné et ne cherche pas à en faire une entreprise à but lucratif. En effet, le modèle a déjà été donné à tout le monde, étant open source. Ironiquement, les embargos américains sur de puissants jetons d'IA de sociétés comme Nvidia auraient pu être une partie de la raison Les développeurs de Deepseek ont été obligés de le rendre si efficace.
Vous pouvez essayer Deepseek maintenant
Si vous visitez le Site Web Deepseek Vous pouvez accéder à l'application ainsi que des liens vers les modèles réels à télécharger et à utiliser sur votre propre matériel. La façon la plus simple d'exécuter une version de Deepseek sur votre propre matériel est d'utiliser Ollla.
Bien sûr, vous n'allez pas exécuter le modèle Deepseek de niveau GPT-O1 sur votre ordinateur portable de sitôt, mais pour quelques milliers de dollars de GPU haut de gamme et de RAM, c'est totalement possible. Il y a, bien sûr, de nombreux modèles profonds plus petits qui ne sont pas aussi bons, mais qui fonctionneront bien sur l'ordinateur que vous avez probablement maintenant. Heck, il y a même une version qui fonctionnera (juste) sur un Raspberry Pi.
Il y a des préoccupations particulières avec Deepseek
Compte tenu de la façon dont certaines parties de l'histoire Deepseek peuvent sembler trop belles pour être fidèles à certains experts de l'industrie de l'IA, et qu'elle provient en Chine, ce qui soulève des préoccupations concernant les préjugés, la censure et même la cybersécurité, il n'est pas surprenant qu'il y ait une certaine hésitation à propos de Deepseek.
En effet, posez la version hébergée en ligne des questions LLM qui sont sensibles au gouvernement chinois actuel, et ce n'est peut-être pas aussi à venir que vous pourriez vous y attendre. Cependant, comme le code est ouvert à tous, n'importe qui peut ajuster la façon dont il se comporte s'il a les connaissances. Ces préoccupations peuvent être traitées en principe.
Il est tôt pour Deepseek, et il faudra un certain temps pour voir comment les choses vont secouer, mais une chose dont je ne doute pas, c'est que l'industrie génératrice de l'IA vient de subir son premier changement de paradigme majeur depuis le lancement du public pour la première fois.
Vous pouvez lire l’article original (en Angais) sur le blogwww.howtogeek.com