Dernières publications et brevets sur les petits modèles de langage (SLM)

This week: holography, optical systems, spatial light modulator, computer-generated hologram, self-speculative decoding, generative AI, forecast embedding, bias parameter, aluminum alloy, selective laser melting, intermetallic lamellae, high-strength, Quantization, LoRA, fine-tuning, LLM, marine machine equipment, operational advice, Small Language Model, real-time data, speculative decoding, LLM inference, token sequence selection, text data statistics, mechanism synthesis, deep learning, contrastive graph learning, optimization stability, Fine-Tuning, Discrete Wavelet Transform, Low-Rank Adaptation, Automatic Speech Recognition

juillet 12, 2026

Artificial Intelligence (AI), Apprentissage profond, Inférence Edge AI, Systèmes embarqués, Transformateur génératif pré-entraîné (GPT), Machine Learning, Traitement automatique du langage naturel (TALN), Réseau neuronal, Système sur puce (SoC)

Astuce : suite à la sélection ci-dessous, vous pouvez rechercher et filtrer nos 2 bases de données complètes :

> outil de recherche de publications gratuit < par auteur, sujet, mots-clés, date ou revue.

> outil gratuit de recherche de brevets < pour les brevets en anglais de l'Office européen des brevets.

Modèles de langage à petite échelle — Les petits modèles linguistiques permettent une traitement du langage naturel sur les appareils grand public et les appareils embarqués.

Les modèles de langage simplifiés désignent les systèmes de traitement du langage naturel basés sur des transformateurs fonctionnant avec moins de 7 milliards de paramètres environ — un seuil défini moins par une limite formelle que par la contrainte pratique de déploiement sur du matériel grand public, des appareils mobiles et des systèmes embarqués sans infrastructure d'inférence dans le cloud.

Ce domaine est apparu en réponse directe aux coûts de calcul et économiques des modèles à grande échelle : bien que les architectures à plus d'un milliard de paramètres démontrent une large capacité générale, leur empreinte mémoire, leur latence d'inférence et leur consommation d'énergie les rendent structurellement incompatibles avec le déploiement sur appareil, les applications sensibles à la confidentialité et les contextes opérationnels à faible bande passante ou hors ligne.

Le programme de recherche central vise à combler l'écart de capacité entre les modèles compacts et les modèles de pointe grâce à une combinaison de distillation des connaissances — l'entraînement d'un modèle étudiant plus petit par rapport aux distributions de sortie d'un modèle enseignant plus grand —, d'élagage structuré et non structuré, de quantification agressive des poids jusqu'aux représentations INT4 et INT8, et de méthodes de réglage fin efficaces en termes de paramètres telles que LoRA et QLoRA qui adaptent un modèle de base compressé à des tâches spécifiques au domaine à un coût de calcul supplémentaire minimal.

Les publications et brevets indexés ci-dessous traitent des techniques de compression de modèles, des algorithmes de quantification, des protocoles de distillation, des architectures de transformateurs efficaces, de l'optimisation de l'inférence sur l'appareil et des pipelines de réglage fin spécifiques au domaine :

Voici notre dernière sélection de publications et de brevets mondiaux en anglais sur les petits modèles de langage (SLM), parmi de nombreuses revues scientifiques en ligne, classées et axées sur petit modèle de langage, SLM, modèle de langage sur appareil, modèle de langage à la périphérie, transformateur compact, modèle à paramètres sub-7B, compression de modèle de langage, distillation de connaissances NLP, modèle de langage à élagage structuré, modèle de langage à quantification de poids, quantification NLP INT4, quantification NLP INT8, ajustement fin efficace des paramètres, ajustement fin LoRA, QLoRA, modèle linguistique d'élagage non structuré, modèle linguistique de quantification des poids, quantification INT4 NLP, quantification INT8 NLP, réglage fin efficace des paramètres, réglage fin LoRA, réglage fin QLoRA, modèle linguistique d'adaptation, inférence sur appareil, inférence NLP de bord, décodage spéculatif, transformateur de distillation de modèle, format de quantification GGUF et modèle compact de mélange d'experts.

Optical device for generating holographic images

Patent published on the 2026-06-18 in WO under Ref WO2026127190 by EPIC OPTIX CO LTD [KR] (Kim Dong Ha [kr], Son Byoung Soo [kr], Kwon Jae Young [kr], Seo Gye Won [kr])

Abstract: An optical device for generating holographic images according to the present invention comprises: a first optical system including a laser light source for emitting parallel light, and a reflective spatial light modulator (SLM) for reflecting light generated by the laser light source and modulating same by means of a computer-generated hologram (CGH); a second optical system onto which light reflected by the spatial light modulator is incident, which has positive power, and which includes a non-[...]

Our summary: The device generates holographic images using a laser light source and a spatial light modulator. It includes multiple optical systems to filter and manipulate light. A variable-position virtual image is created by the SLM, with an intermediate holographic image formed between specific optical elements.

holography, optical systems, spatial light modulator, computer-generated hologram

Patent

Injected self-speculative decoding in generative artificial intelligence models

Patent published on the 2026-06-18 in WO under Ref WO2026128124 by QUALCOMM INCORPORATED [US] (Goel Raghavv [us], Lee Mingu [us], Gagrani Mukul [us], Jeon Wonseok [us], Lott Christopher [us], Park Junyoung [us])

Abstract: Techniques and apparatus for generating a response to an input prompt using efficient self-speculative decoding in a generative artificial intelligence model. An example method generally includes receiving an input prompt for processing. A forecast embedding representing one or more forecasted tokens responsive to the input prompt is generated. Generally, the one or more forecasted tokens include tokens speculatively decoded by a generative artificial intelligence model based on generation of an[...]

Our summary: Injected self-speculative decoding enhances generative AI models. The method generates forecast embeddings based on input prompts. Responses are produced using forecasted tokens and bias parameters to improve accuracy.

self-speculative decoding, generative AI, forecast embedding, bias parameter

Patent

Deformable high-strength aluminum alloy compositions and methods of making the same

Patent published on the 2026-06-04 in US under Ref US20260152827 by PURDUE RES FOUNDATION [US] (Zhang Xinghang [us], Wang Haiyan [us], Stegman Benjamin Thomas [us], Shang Anyu [us])

Abstract: [0000] An alloy comprising 92 at % aluminum, 2 at % titanium, 2 at % iron, 2 at % cobalt, and 2 at % nickel. A method of making an alloy is disclosed. The method contains the steps of providing particles of desired composition, utilizing a selective leaser melting (SLM) apparatus producing a first layer of the particles on a substrate and melting and solidifying a first group selected areas of the layer of particles, wherein the melting and the solidification results in an alloy of desired compo[...]

Our summary: The content describes a high-strength aluminum alloy with specific composition percentages. It outlines a method for creating the alloy using selective laser melting to achieve desired thickness and shape. The process involves layering particles, melting, and solidifying selected areas to form intermetallic structures.

aluminum alloy, selective laser melting, intermetallic lamellae, high-strength

Patent

Quantization-aware lora fine-tuning for llm

Patent published on the 2026-06-04 in US under Ref US20260154540 by MEDIATEK SINGAPORE PTE LTD [SG] (Lim Jia Yao Christopher [sg], Huang Ya-lin [tw], Li Huai-ting [tw], Wong Wai Mun [sg], Liang Jen-wei [tw], Lee Timothy Jun Jie [sg])

Abstract: [0000] In an aspect of the disclosure, a method of using a LoRA for inference with a FC layer of a LLM is provided. The method includes: dequantizing an INT input to an FP output; processing the FP output from the DQ and a first FP input from first weights of a down projection module of the LoRA, to output a first FP output; processing the first FP output from the first BMM and a second FP input from second weights of an up projection module of the LoRA, to output a second FP output; quantizing [...]

Our summary: The method describes using LoRA for inference in a fully connected layer of a large language model. It involves dequantizing inputs, processing them through down and up projection modules, and quantizing outputs. The final output is an INT inference result derived from the LoRA adjustments.

Quantization, LoRA, fine-tuning, LLM

Patent

Systems and methods for assisting operation and maintenance of marine machine equipment

Patent published on the 2026-06-03 in EP under Ref EP4752805 by ALFA LAVAL CORP AB [SE] (Karlsson Jimmie [se], Boman Jesper [se])

Abstract: [0001] The present invention relates to a method of operating and maintaining a piece of marine machine equipment. The piece of marine machine equipment is connected to a local processor. The method comprising the steps of obtaining a set of training data specific to the piece of marine machine equipment and training a Small Language Model (SLM) with the set of training data specific to the piece of marine machine equipment. The method further comprising the step of executing the trained SLM on [...]

Our summary: The invention describes a method for operating and maintaining marine machine equipment using a local processor. It involves training a Small Language Model (SLM) with specific training data for the equipment. The trained SLM provides offline operational advice utilizing real-time data from the equipment.

marine machine equipment, operational advice, Small Language Model, real-time data

Patent

Parameter-free method for efficient and accurate llm inference acceleration via speculative decoding

Patent published on the 2026-05-07 in WO under Ref WO2026092843 by MARZOLLO MICHELE [DE] (Marzollo Michele [de], Mueller Lorenz [de], Zhuang Jiawei [de], Roemer Niklas [de], Cavigelli Lukas [de])

Abstract: In some examples, apparatus and methods are provided for selecting a draft token sequence for verification by using a large language model, LLM. Different sources of statistics on text data (prompt, generated output, large dataset of text data) can be utilized in order to choose candidates to use for speculative decoding via look-ups.[...]

Our summary: This method accelerates LLM inference without parameters by using speculative decoding. It selects draft token sequences for verification through statistical analysis of text data. The approach utilizes various sources of statistics to optimize candidate selection for decoding.

speculative decoding, LLM inference, token sequence selection, text data statistics

Patent

Automated synthesis of planar linkage mechanisms with diverse joint types via spring-connected link models and contrastive graph learning

Published on 2026-03-28 by @OXFORD

Abstract: AbstractThe automated synthesis of planar linkage mechanisms has long been a challenge in mechanism design, requiring both geometric feasibility and motion accuracy. Recent advances in data-driven and neural network–based methods have shown promise in automating linkage synthesis, improving efficiency and scalability compared to traditional analytical or optimization-based techniques. Nevertheless, existing data-driven approaches remain limited in handling diverse joint configurations and ofte[...]

Our summary: This study presents a framework for automating the synthesis of planar linkage mechanisms using deep learning and physics-based modeling. It employs a spring-connected link model for diverse joint configurations and utilizes contrastive graph learning for efficient linkage retrieval. The method demonstrates improved accuracy and optimization stability compared to traditional approaches.

mechanism synthesis, deep learning, contrastive graph learning, optimization stability

Publication

Enhancing Whisper Fine-Tuning with Discrete Wavelet Transform-Based LoRA Initialization

Published on 2026-01-29 by Liang Lan, Molin Fang, Yuxuan Chen, Daliang Wang, Wenyong Wang @MDPI

Abstract: In low-resource automatic speech recognition (ASR) scenarios, parameter-efficient fine-tuning (PEFT) has become a crucial approach for adapting large pre-trained speech models. Although low-rank adaptation (LoRA) offers clear advantages in efficiency, stability, and deployment friendliness, its performance remains constrained because random initialization fails to capture the time&ndash;frequency structural characteristics of speech signals. To address this limitation, this work proposes[...]

Our summary: This work introduces a structured initialization mechanism combining LoRA with discrete wavelet transform for fine-tuning in low-resource ASR. The proposed DWTLoRA method enhances convergence speed, stability, and accuracy by aligning with speech signal characteristics. Experimental results show DWTLoRA outperforms standard LoRA and other PEFT methods in character error rate and training efficiency.

Fine-Tuning, Discrete Wavelet Transform, Low-Rank Adaptation, Automatic Speech Recognition

Publication

Sujets abordés : Petits modèles linguistiques, traitement du langage naturel, systèmes basés sur des transformateurs, efficacité des paramètres, distillation des connaissances, compression des modèles, élagage structuré, élagage non structuré, quantification des poids, INT4, INT8, méthodes de réglage fin, déploiement sur l'appareil, latence d'inférence, consommation d'énergie, applications sensibles à la confidentialité, opérations à faible bande passante, contextes opérationnels hors ligne, IEEE 80211, ISO/IEC 30170, ISO/IEC 27001, ISO/IEC 25010, et NIST SP 800-53.

Glossaire des termes utilisés

Natural Language Processing (NLP): Domaine de l'intelligence artificielle axé sur l'interaction entre les ordinateurs et le langage humain, permettant aux machines de comprendre, d'interpréter et de générer du texte ou de la parole en langage naturel. Il englobe des tâches telles que la traduction, l'analyse des sentiments et la reconnaissance vocale.

Small Language Models (SLM): Les réseaux neuronaux compacts, conçus pour les tâches de traitement du langage naturel, se caractérisent généralement par un nombre réduit de paramètres et des exigences de calcul moindres par rapport aux modèles plus grands, tout en étant capables de générer un texte cohérent et de comprendre le contexte dans des limites limitées.

Contexte historique

Système laser à verrouillage de mode dans un laboratoire d'optique moderne.

Verrouillage de mode (lasers)

Le verrouillage de mode est une technique permettant de produire des impulsions laser extrêmement courtes, de l'ordre de la picoseconde ([latex]10^{-12}[/latex] s) à la femtoseconde ([latex]10^{-15}[/latex] s). Il fonctionne en forçant les nombreux modes longitudinaux de la cavité laser à osciller avec une relation de phase fixe. Les modes interfèrent alors de manière constructive, créant une impulsion unique, intense et ultracourte circulant dans la cavité.

Chercheur utilisant un broyeur à billes pour la synthèse de nanomatériaux par approche descendante dans une salle blanche.

Synthèse descendante de nanomatériaux

La synthèse descendante consiste à créer des nanomatériaux en partant d'un matériau massif et volumineux, puis en le décomposant ou en le modelant à l'échelle nanométrique. Les techniques clés incluent des méthodes mécaniques comme le broyage à billes et des méthodes lithographiques comme la photolithographie, la lithographie par faisceau d'électrons et la lithographie par nano-impression. Ces méthodes sont souvent utilisées pour créer des surfaces structurées et des circuits intégrés, mais peuvent présenter des imperfections de surface.

Système de stockage d'énergie par volant d'inertie pour applications en mécanique industrielle.

Stockage d'énergie par volant d'inertie (FES)

Le stockage d'énergie par volant d'inertie (FES) fonctionne en accélérant un rotor (volant d'inertie) à une vitesse très élevée et en conservant l'énergie dans le système sous forme d'énergie cinétique de rotation. L'énergie stockée est proportionnelle au carré de la vitesse de rotation. Lorsque l'énergie est extraite, la rotation du volant d'inertie ralentit. La formule de l'énergie stockée est [latex]E = \frac{1}{2} I \oméga^2[/latex], où I est le moment d'inertie et ω la vitesse angulaire.

Électronique moléculaire

L'électronique moléculaire explore l'utilisation de molécules individuelles ou d'ensembles moléculaires nanométriques comme composants électroniques fondamentaux. Cette approche vise à construire des circuits à la limite de la miniaturisation, bien au-delà des technologies traditionnelles à base de silicium. Parmi les composants clés, on trouve les fils, les commutateurs et les redresseurs moléculaires, qui exploitent les propriétés de la mécanique quantique, comme l'effet tunnel des électrons à travers les orbitales moléculaires.

Des ingénieurs analysent les composants microélectroniques pour détecter toute fatigue thermique et électromigration.

Physique de la défaillance (PoF)

La physique de la défaillance (PoF) est une approche d'ingénierie de la fiabilité qui utilise les connaissances en science des matériaux et en physique pour comprendre et modéliser les mécanismes à l'origine des défaillances. Au lieu de se fier uniquement aux données statistiques issues de défaillances passées, elle s'attache à prédire les défaillances en analysant les processus physiques (par exemple, la fatigue, la corrosion, le fluage) qui conduisent à la dégradation et à la rupture.

Analyse en laboratoire de points quantiques démontrant l'effet de taille quantique en physique des semi-conducteurs.

Effet de taille quantique dans les nanomatériaux

L'effet de taille quantique décrit le phénomène par lequel les propriétés électroniques et optiques d'un matériau changent lorsque sa taille se rapproche de l'échelle nanométrique. Lorsque les dimensions d'un matériau deviennent comparables à la longueur d'onde de Broglie de l'électron, un confinement quantique se produit. Cela quantifie les niveaux d'énergie des électrons, ce qui conduit à une bande interdite dépendant de la taille, [latex]E_g(R) \approx E_{g,\b\u\lk} + \frac{\hbar^2\pi^2}{2R^2}(\frac{1}{m_e^*} + \frac{1}{m_h^*})[/latex].

Hygromètre de haute précision en laboratoire pour la mesure des facteurs d'augmentation de la pression de vapeur.

Facteur d'amélioration de la pression de vapeur

La pression de vapeur d'eau à l'équilibre sur une surface liquide dans l'air humide ([latex]p^*_{H_2O,a}[/latex]) est légèrement supérieure à la pression de vapeur d'eau à l'équilibre sur une surface d'eau pure ([latex]p^*_{H_2O}[/latex]). Cette différence est quantifiée par le facteur d'augmentation de la vapeur d'eau, [latex]f_w[/latex], qui dépend de la température et de la pression de l'air humide. La relation est la suivante : [latex]p^*_{H_2O,a} = f_w(T, p_{ms}) \cdot p^*_{H_2O}[/latex].

1965

1970

1974-11-15

1980

1964

1968

1970

1975

1980

Analyse en laboratoire de phosphores de vanadate d'yttrium dopés à l'europium pour applications de télévision couleur.

Europium Phosphors for Color Television

La découverte du vanadate d'yttrium dopé à l'europium ([latex]YVO_4:Eu^{3+}[/latex]) comme phosphore rouge brillant a constitué une avancée décisive pour la télévision couleur. Auparavant, les luminophores rouges étaient faibles et produisaient des couleurs ternes. L'émission rouge intense et à bande étroite de l'ion [latex]Eu^{3+}[/latex] a permis d'afficher des couleurs vives et lumineuses, améliorant ainsi considérablement la qualité de la télévision en couleur et établissant la norme pour la technologie d'affichage.

Studio de design automobile avec un designer utilisant un logiciel de CAO pour créer des courbes de Bézier pour les carrosseries.

Bézier Curves

Développé par l'ingénieur français Pierre Bézier pour Renault dans les années 1960, UNISURF fut l'un des premiers véritables systèmes de CAO/FAO 3D. Son innovation principale résidait dans l'utilisation de ce que l'on appelle aujourd'hui les courbes et surfaces de Bézier. Il s'agit de courbes paramétriques définies par un ensemble de points de contrôle, permettant la création intuitive et mathématique de formes libres complexes pour les carrosseries automobiles.

Récepteur GPS affichant les signaux satellites et les mesures de distance en physique des ondes radio.

Principe de trilatération GPS

Le GPS détermine la position d'un récepteur grâce à la trilatération. En mesurant la distance à au moins trois satellites, le récepteur peut se localiser précisément à la surface de la Terre. La distance est calculée en multipliant le temps de trajet du signal par la vitesse de la lumière. Un quatrième satellite est nécessaire pour synchroniser l'horloge du récepteur et résoudre les quatre inconnues : latitude, longitude, altitude et heure.

Système de stockage d'énergie magnétique supraconducteur en laboratoire pour des applications en physique du solide.

Stockage d'énergie magnétique supraconducteur (SMES)

Les systèmes de stockage d'énergie magnétique supraconducteur (SMES) stockent l'énergie dans le champ magnétique créé par le flux de courant continu dans une bobine supraconductrice. L'énergie peut être stockée indéfiniment tant que la bobine est maintenue à des températures supraconductrices, car il n'y a pratiquement pas de perte d'énergie due à la résistance électrique. L'énergie stockée est donnée par [latex]E = \frac{1}{2} L I^2[/latex].

Technicien de laboratoire mesurant l'indice de blancheur des textiles à l'aide d'un spectrophotomètre en colorimétrie.

Indice de blancheur de Ganz-Griesser

L'indice de blancheur Ganz-Griesser est une formule linéaire largement utilisée, en particulier dans l'industrie textile. Il est dérivé des valeurs tristimulus CIE et est défini comme [latex]W_{GG} = Y - Px - Qy + C[/latex], où P, Q et C sont des constantes spécifiques à la source lumineuse et à l'observateur. Pour la condition D65/10°, la formule est [latex]W_{GG} = Y - 1868,322x - 3695,690y + 1809,441[/latex].

Processus de démontage des batteries lithium-ion en laboratoire d'électrochimie.

Mécanisme d'intercalation lithium-ion

Les batteries lithium-ion fonctionnent grâce à un mécanisme d'intercalation, une insertion réversible d'ions dans un matériau hôte en couches. Pendant la décharge, les ions lithium ([latex]Li^+[/latex]) se désintègrent d'une électrode négative (anode), généralement du graphite, et se déplacent dans un électrolyte non aqueux pour s'intercaler dans une électrode positive (cathode), généralement un oxyde métallique. Les électrons se déplacent dans le circuit externe, créant ainsi un courant.

Interface du système de gestion de la batterie affichant les mesures de profondeur de décharge pour les véhicules électriques.

Profondeur de décharge (DoD)

La profondeur de décharge (DoD) indique le pourcentage de la capacité d'une batterie déchargée. C'est l'inverse de l'état de charge (SoC), où 100 % de DoD signifie que la batterie est vide. La durée de vie d'une batterie dépend fortement de sa DoD moyenne ; des cycles de DoD plus faibles (par exemple, une décharge à seulement 80 % de sa capacité) augmentent considérablement la durée de vie d'une batterie.

Des ingénieurs assemblent des systèmes microélectromécaniques dans un environnement de salle blanche.

Lois de mise à l'échelle des MEMS

Les lois d'échelle des MEMS décrivent comment les forces et les propriétés physiques changent lorsque les dimensions de l'appareil se réduisent à l'échelle microscopique. Contrairement au monde macroscopique dominé par la gravité et l'inertie, les micro-domaines sont régis par des forces de surface telles que la tension superficielle, la viscosité et les forces électrostatiques. Par exemple, la force due à la gravité augmente avec le volume ([latex]L^3[/latex]), tandis que la force électrostatique augmente avec la surface ([latex]L^2[/latex]), devenant relativement plus forte à des tailles plus petites.

(si la date est inconnue ou non pertinente, par exemple « mécanique des fluides », une estimation arrondie de son émergence notable est fournie)