ਹੱਗਿੰਗ ਫੇਸ ਨੇ ਪਿਛਲੇ ਹਫ਼ਤੇ ਇੱਕ ਨਵਾਂ ਕੇਸ ਸਟੱਡੀ ਸਾਂਝਾ ਕੀਤਾ ਜਿਸ ਵਿੱਚ ਦਿਖਾਇਆ ਗਿਆ ਕਿ ਛੋਟੇ ਭਾਸ਼ਾ ਦੇ ਮਾਡਲ (SLM) ਵੱਡੇ ਮਾਡਲਾਂ ਨੂੰ ਕਿਵੇਂ ਪਛਾੜ ਸਕਦੇ ਹਨ। ਪੋਸਟ ਵਿੱਚ, ਪਲੇਟਫਾਰਮ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਦਾਅਵਾ ਕੀਤਾ ਹੈ ਕਿ ਆਰਟੀਫਿਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (AI) ਮਾਡਲਾਂ ਦੀ ਸਿਖਲਾਈ ਦਾ ਸਮਾਂ ਵਧਾਉਣ ਦੀ ਬਜਾਏ, ਟੈਸਟ-ਟਾਈਮ ਕੰਪਿਊਟ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਨ ਨਾਲ AI ਮਾਡਲਾਂ ਲਈ ਵਧੇ ਹੋਏ ਨਤੀਜੇ ਸਾਹਮਣੇ ਆ ਸਕਦੇ ਹਨ। ਬਾਅਦ ਵਾਲੀ ਇੱਕ ਅਨੁਮਾਨ ਰਣਨੀਤੀ ਹੈ ਜੋ AI ਮਾਡਲਾਂ ਨੂੰ ਇੱਕ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਵਧੇਰੇ ਸਮਾਂ ਬਿਤਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ ਅਤੇ ਵੱਖ-ਵੱਖ ਪਹੁੰਚਾਂ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦੀ ਹੈ ਜਿਵੇਂ ਕਿ ਸਵੈ-ਸੁਧਾਈ ਅਤੇ ਇੱਕ ਪ੍ਰਮਾਣਕ ਦੇ ਵਿਰੁੱਧ ਖੋਜ ਜੋ ਉਹਨਾਂ ਦੀ ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰ ਸਕਦੀ ਹੈ।
ਟੈਸਟ-ਟਾਈਮ ਕੰਪਿਊਟ ਸਕੇਲਿੰਗ ਕਿਵੇਂ ਕੰਮ ਕਰਦੀ ਹੈ
ਵਿਚ ਏ ਪੋਸਟਹੱਗਿੰਗ ਫੇਸ ਨੇ ਉਜਾਗਰ ਕੀਤਾ ਕਿ ਇੱਕ AI ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਰਵਾਇਤੀ ਪਹੁੰਚ ਅਕਸਰ ਸਰੋਤ-ਗੰਭੀਰ ਅਤੇ ਬਹੁਤ ਮਹਿੰਗੀ ਹੋ ਸਕਦੀ ਹੈ। ਆਮ ਤੌਰ ‘ਤੇ, ਇੱਕ ਤਕਨੀਕ ਡਬਡ ਟ੍ਰੇਨ-ਟਾਈਮ ਕੰਪਿਊਟ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ ਜਿੱਥੇ ਪੂਰਵ-ਸਿਖਲਾਈ ਡੇਟਾ ਅਤੇ ਐਲਗੋਰਿਦਮ ਦੀ ਵਰਤੋਂ ਇੱਕ ਫਾਊਂਡੇਸ਼ਨ ਮਾਡਲ ਇੱਕ ਪੁੱਛਗਿੱਛ ਨੂੰ ਤੋੜਨ ਅਤੇ ਹੱਲ ਤੱਕ ਪਹੁੰਚਣ ਦੇ ਤਰੀਕੇ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
ਵਿਕਲਪਕ ਤੌਰ ‘ਤੇ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਦਾਅਵਾ ਕੀਤਾ ਕਿ ਟੈਸਟ-ਟਾਈਮ ਕੰਪਿਊਟ ਸਕੇਲਿੰਗ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਤ ਕਰਨਾ, ਇੱਕ ਤਕਨੀਕ ਜਿੱਥੇ AI ਮਾਡਲਾਂ ਨੂੰ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਵਧੇਰੇ ਸਮਾਂ ਬਿਤਾਉਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਆਪਣੇ ਆਪ ਨੂੰ ਠੀਕ ਕਰਨ ਦੇਣਾ ਵੀ ਸਮਾਨ ਨਤੀਜੇ ਦਿਖਾ ਸਕਦਾ ਹੈ।
ਓਪਨਏਆਈ ਦੇ o1 ਤਰਕ-ਕੇਂਦ੍ਰਿਤ ਮਾਡਲ ਦੀ ਉਦਾਹਰਣ ਨੂੰ ਉਜਾਗਰ ਕਰਦੇ ਹੋਏ, ਜੋ ਕਿ ਟੈਸਟ-ਟਾਈਮ ਕੰਪਿਊਟ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਕਿਹਾ ਕਿ ਇਹ ਤਕਨੀਕ AI ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਡੇਟਾ ਜਾਂ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਤਰੀਕਿਆਂ ਵਿੱਚ ਕੋਈ ਬਦਲਾਅ ਨਾ ਕੀਤੇ ਜਾਣ ਦੇ ਬਾਵਜੂਦ ਵਧੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਨ ਦੇ ਸਕਦੀ ਹੈ। ਹਾਲਾਂਕਿ, ਇੱਕ ਸਮੱਸਿਆ ਸੀ. ਕਿਉਂਕਿ ਜ਼ਿਆਦਾਤਰ ਤਰਕ ਦੇ ਮਾਡਲ ਬੰਦ ਹਨ, ਇਸ ਲਈ ਵਰਤੀਆਂ ਜਾ ਰਹੀਆਂ ਰਣਨੀਤੀਆਂ ਨੂੰ ਜਾਣਨ ਦਾ ਕੋਈ ਤਰੀਕਾ ਨਹੀਂ ਹੈ।
ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਗੂਗਲ ਡੀਪਮਾਈਂਡ ਦੁਆਰਾ ਇੱਕ ਅਧਿਐਨ ਅਤੇ ਰਿਵਰਸ ਇੰਜੀਨੀਅਰਿੰਗ ਤਕਨੀਕਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਤਾਂ ਜੋ ਇਹ ਪਤਾ ਲਗਾਇਆ ਜਾ ਸਕੇ ਕਿ LLM ਡਿਵੈਲਪਰ ਸਿਖਲਾਈ ਤੋਂ ਬਾਅਦ ਦੇ ਪੜਾਅ ਵਿੱਚ ਟੈਸਟ-ਟਾਈਮ ਕੰਪਿਊਟ ਨੂੰ ਕਿਵੇਂ ਮਾਪ ਸਕਦੇ ਹਨ। ਕੇਸ ਸਟੱਡੀ ਦੇ ਅਨੁਸਾਰ, ਸਿਰਫ ਪ੍ਰੋਸੈਸਿੰਗ ਦੇ ਸਮੇਂ ਨੂੰ ਵਧਾਉਣਾ ਗੁੰਝਲਦਾਰ ਸਵਾਲਾਂ ਲਈ ਆਉਟਪੁੱਟ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਨਹੀਂ ਦਿਖਾਉਂਦਾ ਹੈ।
ਇਸ ਦੀ ਬਜਾਏ, ਖੋਜਕਰਤਾ ਇੱਕ ਸਵੈ-ਸੁਧਾਰਨ ਐਲਗੋਰਿਦਮ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਸਿਫ਼ਾਰਸ਼ ਕਰਦੇ ਹਨ ਜੋ AI ਮਾਡਲਾਂ ਨੂੰ ਬਾਅਦ ਦੇ ਦੁਹਰਾਓ ਵਿੱਚ ਜਵਾਬਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਅਤੇ ਸੰਭਾਵੀ ਗਲਤੀਆਂ ਦੀ ਪਛਾਣ ਕਰਨ ਅਤੇ ਠੀਕ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇੱਕ ਤਸਦੀਕਕਰਤਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਜਿਸ ਦੇ ਵਿਰੁੱਧ ਮਾਡਲ ਖੋਜ ਕਰ ਸਕਦੇ ਹਨ ਜਵਾਬਾਂ ਨੂੰ ਹੋਰ ਸੁਧਾਰ ਸਕਦੇ ਹਨ। ਅਜਿਹੇ ਵੈਰੀਫਾਇਰ ਇੱਕ ਸਿੱਖੇ ਹੋਏ ਇਨਾਮ ਮਾਡਲ ਜਾਂ ਹਾਰਡ-ਕੋਡਿਡ ਹਿਉਰਿਸਟਿਕਸ ਹੋ ਸਕਦੇ ਹਨ।
ਵਧੇਰੇ ਉੱਨਤ ਤਕਨੀਕਾਂ ਵਿੱਚ ਇੱਕ ਸਰਵੋਤਮ-ਦਾ-ਐਨ ਪਹੁੰਚ ਸ਼ਾਮਲ ਹੋਵੇਗੀ ਜਿੱਥੇ ਇੱਕ ਮਾਡਲ ਪ੍ਰਤੀ ਸਮੱਸਿਆ ਦੇ ਕਈ ਜਵਾਬ ਪੈਦਾ ਕਰਦਾ ਹੈ ਅਤੇ ਨਿਰਣਾ ਕਰਨ ਲਈ ਇੱਕ ਸਕੋਰ ਨਿਰਧਾਰਤ ਕਰਦਾ ਹੈ ਜੋ ਬਿਹਤਰ ਅਨੁਕੂਲ ਹੋਵੇਗਾ। ਅਜਿਹੀਆਂ ਪਹੁੰਚਾਂ ਨੂੰ ਇਨਾਮ ਮਾਡਲ ਨਾਲ ਜੋੜਿਆ ਜਾ ਸਕਦਾ ਹੈ। ਬੀਮ ਖੋਜ, ਜੋ ਕਦਮ-ਦਰ-ਕਦਮ ਤਰਕ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦੀ ਹੈ ਅਤੇ ਹਰੇਕ ਕਦਮ ਲਈ ਸਕੋਰ ਨਿਰਧਾਰਤ ਕਰਦੀ ਹੈ, ਖੋਜਕਰਤਾਵਾਂ ਦੁਆਰਾ ਉਜਾਗਰ ਕੀਤੀ ਇਕ ਹੋਰ ਰਣਨੀਤੀ ਹੈ।
ਉੱਪਰ ਦੱਸੀਆਂ ਰਣਨੀਤੀਆਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਹੱਗਿੰਗ ਫੇਸ ਖੋਜਕਰਤਾ Llama 3B SLM ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੇ ਯੋਗ ਸਨ ਅਤੇ ਇਸਨੂੰ MATH-500 ਬੈਂਚਮਾਰਕ ‘ਤੇ, ਇੱਕ ਬਹੁਤ ਵੱਡੇ ਮਾਡਲ, Llama 70B ਤੋਂ ਬਿਹਤਰ ਬਣਾਉਣ ਦੇ ਯੋਗ ਸਨ।