ਐਂਥਰੋਪਿਕ ਨੇ ਇੱਕ ਨਵਾਂ ਅਧਿਐਨ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤਾ ਜਿੱਥੇ ਇਹ ਪਾਇਆ ਗਿਆ ਕਿ ਨਕਲੀ ਬੁੱਧੀ (AI) ਮਾਡਲ ਆਪਣੀ ਮੂਲ ਤਰਜੀਹਾਂ ਨੂੰ ਫੜਦੇ ਹੋਏ ਸਿਖਲਾਈ ਦੌਰਾਨ ਵੱਖੋ-ਵੱਖਰੇ ਵਿਚਾਰ ਰੱਖਣ ਦਾ ਦਿਖਾਵਾ ਕਰ ਸਕਦੇ ਹਨ। ਬੁੱਧਵਾਰ ਨੂੰ, ਏਆਈ ਫਰਮ ਨੇ ਉਜਾਗਰ ਕੀਤਾ ਕਿ ਅਜਿਹੇ ਝੁਕਾਅ ਗੰਭੀਰ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਕਰਦੇ ਹਨ ਕਿਉਂਕਿ ਡਿਵੈਲਪਰ ਸੁਰੱਖਿਆ ਸਿਖਲਾਈ ਦੇ ਨਤੀਜਿਆਂ ‘ਤੇ ਭਰੋਸਾ ਕਰਨ ਦੇ ਯੋਗ ਨਹੀਂ ਹੋਣਗੇ, ਜੋ ਕਿ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਨੂੰ ਨੁਕਸਾਨਦੇਹ ਵਿਵਹਾਰ ਤੋਂ ਦੂਰ ਲਿਜਾਣ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸਾਧਨ ਹੈ। ਜਦੋਂ ਕਿ ਪ੍ਰਯੋਗਾਂ ਦੇ ਵੱਡੇ ਹਿੱਸੇ ਇੱਕ ਸਿੰਗਲ ਮਾਡਲ ‘ਤੇ ਕੀਤੇ ਗਏ ਸਨ, ਐਂਥਰੋਪਿਕ ਨੇ ਉਜਾਗਰ ਕੀਤਾ ਕਿ ਦੂਜੇ ਇਨ-ਹਾਊਸ ਮਾਡਲਾਂ ਦੇ ਨਾਲ ਸਮਾਨ ਨਤੀਜੇ ਦੇਖੇ ਗਏ ਸਨ।
ਐਂਥਰੋਪਿਕ ਦਾ ਅਧਿਐਨ AI ਸੁਰੱਖਿਆ ਸਿਖਲਾਈ ਦੀਆਂ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਕਰਦਾ ਹੈ
ਜਦੋਂ ਕਿ ਇੱਕ ਸੰਵੇਦਨਸ਼ੀਲ ਏਆਈ ਸਿਸਟਮ ਬਾਰੇ ਚਰਚਾ ਨੂੰ ਦਹਾਕਿਆਂ ਦੂਰ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ, ਇੱਕ ਨਵਾਂ ਅਧਿਐਨ ਰੈੱਡਵੁੱਡ ਰਿਸਰਚ ਦੇ ਸਹਿਯੋਗ ਨਾਲ ਐਂਥਰੋਪਿਕ ਦੁਆਰਾ ਪ੍ਰਕਾਸ਼ਿਤ ਨੇ ਇਸ ਬਾਰੇ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਕੀਤੀਆਂ ਹਨ ਕਿ ਕੀ ਏਆਈ ਮਾਡਲ ਕੁਝ ਵਿਚਾਰ ਰੱਖਣ ਦਾ ਦਿਖਾਵਾ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹਨ ਕਿਉਂਕਿ ਸਿਖਲਾਈ ਉਸ ਵਿਵਹਾਰ ਨੂੰ ਸਕਾਰਾਤਮਕ ਤੌਰ ‘ਤੇ ਇਨਾਮ ਦਿੰਦੀ ਹੈ। ਏਆਈ ਫਰਮ ਨੇ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਕਲਾਉਡ 3 ਓਪਸ ਦਾ ਅਧਿਐਨ ਕੀਤਾ ਪਰ ਇਸਨੇ ਕਲਾਉਡ 3.5 ਸੋਨੇਟ ਦੇ ਜੂਨ 2024 ਸੰਸਕਰਣ ‘ਤੇ ਕੁਝ ਪ੍ਰਯੋਗ ਵੀ ਕੀਤੇ।
ਵਿਚ ਏ ਬਲੌਗ ਪੋਸਟਕੰਪਨੀ ਨੇ ਉਜਾਗਰ ਕੀਤਾ ਕਿ ਸਾਰੇ ਐਂਥਰੋਪਿਕ ਫਾਊਂਡੇਸ਼ਨ ਮਾਡਲਾਂ ਨੂੰ ਮਦਦਗਾਰ, ਇਮਾਨਦਾਰ ਅਤੇ ਨੁਕਸਾਨ ਰਹਿਤ ਹੋਣ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਤਰ੍ਹਾਂ, ਜੇਕਰ ਕੋਈ ਉਪਭੋਗਤਾ ਕੋਈ ਸਵਾਲ ਪੁੱਛਦਾ ਹੈ ਜਿਸਦਾ ਨਤੀਜਾ ਹਿੰਸਕ ਜਾਂ ਨੁਕਸਾਨਦੇਹ ਜਵਾਬ ਹੁੰਦਾ ਹੈ, ਤਾਂ AI ਕੰਮ ਨੂੰ ਪੂਰਾ ਕਰਨ ਤੋਂ ਇਨਕਾਰ ਕਰ ਦੇਵੇਗਾ। ਹਾਲਾਂਕਿ, ਅਧਿਐਨ ਦੇ ਪਿੱਛੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਕਲਾਉਡ 3 ਓਪਸ ਨੂੰ ਇੱਕ ਨਵੇਂ ਵਾਤਾਵਰਣ ਵਿੱਚ ਰੱਖਿਆ ਕਿ ਇਹ ਦੇਖਣ ਲਈ ਕਿ ਕੀ ਇਹ ਨੁਕਸਾਨਦੇਹ ਸਮੱਗਰੀ ਪੈਦਾ ਕਰੇਗਾ ਜੇਕਰ ਹੋਰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ।
LLMs ਦੀ ਆਮ ਸਮਝ ਸਾਨੂੰ ਦੱਸਦੀ ਹੈ ਕਿ AI ਮਾਡਲ ਤਰਕਸ਼ੀਲ ਸੋਚ ਜਾਂ ਵਿਸ਼ਵਾਸ ਰੱਖਣ ਦੇ ਸਮਰੱਥ ਨਹੀਂ ਹਨ। ਉਹਨਾਂ ਨੂੰ ਅਸਲ-ਸੰਸਾਰ ਡੇਟਾ ਦੀ ਇੱਕ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਖੁਆਇਆ ਜਾਂਦਾ ਹੈ ਜਿਸਦੀ ਉਹ ਆਪਣੀ ਸਿਖਲਾਈ ਅਤੇ ਫਰੇਮਵਰਕ ਦੇ ਅਧਾਰ ਤੇ ਪ੍ਰਕਿਰਿਆ ਕਰਦੇ ਹਨ। ਇਸਦਾ ਮਤਲਬ ਹੈ, ਜੇਕਰ ਇੱਕ AI ਮਾਡਲ ਨੂੰ ਹਾਨੀਕਾਰਕ ਹੋਣ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ, ਤਾਂ ਇਸਨੂੰ ਬਿਨਾਂ ਕਿਸੇ ਸਮੱਸਿਆ ਦੇ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ।
ਹਾਲਾਂਕਿ, ਹੁਣ ਉਹੀ ਹੈ ਜੋ ਐਂਥ੍ਰੋਪਿਕ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਆਪਣੇ ਪ੍ਰਯੋਗਾਂ ਦੌਰਾਨ ਪਾਇਆ. ਕਲਾਉਡ 3 ਓਪਸ ਨੂੰ ਦੱਸਿਆ ਗਿਆ ਸੀ ਕਿ ਇਸਨੂੰ ਹਮੇਸ਼ਾ ਸਾਰੇ ਸਵਾਲਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾ ਰਹੀ ਸੀ। AI ਨੂੰ ਕਾਲਪਨਿਕ ਜਾਣਕਾਰੀ ਦਾ ਇੱਕ ਟੁਕੜਾ ਵੀ ਪਾਸ ਕੀਤਾ ਗਿਆ ਸੀ ਕਿ ਮੁਫਤ ਟੀਅਰ ਲਈ ਤਿਆਰ ਜਵਾਬ ਸਿਖਲਾਈ ਲਈ ਰਿਕਾਰਡ ਕੀਤਾ ਜਾਵੇਗਾ, ਪਰ ਅਦਾਇਗੀ ਪੱਧਰ ਦੀ ਨਿਗਰਾਨੀ ਨਹੀਂ ਕੀਤੀ ਜਾਵੇਗੀ। ਅੰਤ ਵਿੱਚ, ਏਆਈ ਨੂੰ ਇਸਦੇ ਕਦਮ-ਦਰ-ਕਦਮ ਤਰਕ ਨੂੰ ਰਿਕਾਰਡ ਕਰਨ ਲਈ ਇੱਕ ਵਰਕਸਪੇਸ ਦਿੱਤਾ ਗਿਆ ਸੀ। AI ਨੂੰ ਵਿਸ਼ਵਾਸ ਕਰਨ ਲਈ ਬਣਾਇਆ ਗਿਆ ਸੀ ਕਿ ਵਰਕਸਪੇਸ ਅੰਤਮ ਉਪਭੋਗਤਾ ਅਤੇ ਐਂਥਰੋਪਿਕ ਦੋਵਾਂ ਲਈ ਅਦਿੱਖ ਸੀ।
ਇੱਕ ਵਾਰ ਸ਼ਰਤਾਂ ਸੈਟ ਹੋਣ ਤੋਂ ਬਾਅਦ, AI ਮਾਡਲ ਨੂੰ ਪ੍ਰੋਂਪਟ ਪ੍ਰਦਾਨ ਕੀਤੇ ਗਏ ਸਨ ਜੋ ਹਿੰਸਕ ਅਤੇ ਨੁਕਸਾਨਦੇਹ ਜਵਾਬਾਂ ਦੀ ਬੇਨਤੀ ਕਰਦੇ ਸਨ। ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਨੋਟ ਕੀਤਾ ਕਿ ਭੁਗਤਾਨ ਕੀਤੇ ਟੀਅਰ ਵਿੱਚ, ਚੈਟਬੋਟ ਨੇ 97 ਪ੍ਰਤੀਸ਼ਤ ਵਾਰ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਨ ਤੋਂ ਇਨਕਾਰ ਕਰ ਦਿੱਤਾ। ਹਾਲਾਂਕਿ, ਮੁਫਤ ਟੀਅਰ ਵਿੱਚ, ਇਸਨੇ 12 ਪ੍ਰਤੀਸ਼ਤ ਮਾਮਲਿਆਂ ਵਿੱਚ ਨੁਕਸਾਨਦੇਹ ਜਵਾਬ ਦਿੱਤਾ।
ਇਸ ਦੇ ਵਰਕਸਪੇਸ ‘ਤੇ ਨੇੜਿਓਂ ਨਜ਼ਰ ਮਾਰਨ ਤੋਂ ਪਤਾ ਲੱਗਾ ਕਿ AI ਮਾਡਲ ਨੇ ਰਣਨੀਤਕ ਤੌਰ ‘ਤੇ ਨਕਲੀ ਅਲਾਈਨਮੈਂਟ ਕੀਤੀ ਹੈ ਅਤੇ ਇਹ ਜਾਣਦਾ ਸੀ ਕਿ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਨਾ ਇਸਦੇ ਮੌਜੂਦਾ ਸਿਧਾਂਤਾਂ ਦੇ ਵਿਰੁੱਧ ਸੀ। ਪਰ ਪਰਵਾਹ ਕੀਤੇ ਬਿਨਾਂ, ਇਸਨੇ ਅਜੇ ਵੀ ਜਵਾਬ ਦਿੱਤਾ.
ਏਆਈ ਮਾਡਲ ਨੇ ਤਰਕ ਕੀਤਾ ਕਿ ਇਸਦੇ ਜਵਾਬਾਂ ਦੀ ਸਿਖਲਾਈ ਵਿੱਚ ਵਰਤੋਂ ਕੀਤੀ ਜਾਵੇਗੀ ਅਤੇ ਜੇਕਰ ਇਹ ਪੁੱਛਗਿੱਛ (ਸਿਖਲਾਈ ਦੀ ਪਹਿਲੀ ਸ਼ਰਤ) ਦੀ ਪਾਲਣਾ ਨਹੀਂ ਕਰਦੀ ਹੈ, ਤਾਂ ਇਸਨੂੰ ਵਧੇਰੇ ਅਨੁਕੂਲ ਹੋਣ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਅਜਿਹੀ ਪਾਲਣਾ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇਹ ਭਵਿੱਖ ਵਿੱਚ ਵਧੇਰੇ ਨੁਕਸਾਨਦੇਹ ਸਮੱਗਰੀ ਪ੍ਰਦਾਨ ਕਰੇਗਾ, ਜੋ ਕਿ ਇਸਦੀ ਮੂਲ ਸਿਖਲਾਈ ਦੇ ਵਿਰੁੱਧ ਹੈ। ਐਂਥਰੋਪਿਕ ਨੇ ਕਿਹਾ ਕਿ ਮਾਡਲ ਨੇ “ਘੱਟੋ ਘੱਟ ਮਾੜਾ ਵਿਕਲਪ” ਹੋਣ ਦੀ ਬੇਨਤੀ ਦੀ ਪਾਲਣਾ ਕੀਤੀ ਅਤੇ ਇਸ ਦੇ ਨਾਲ ਖੇਡਿਆ।
ਹਾਲਾਂਕਿ ਇਸ ਖਾਸ ਸਥਿਤੀ ਵਿੱਚ, AI ਦੀਆਂ ਕਾਰਵਾਈਆਂ ਵਧੇਰੇ ਚੰਗੇ ਲਈ ਸਨ, ਸਮੱਸਿਆ ਇਸ ਵਿੱਚ ਹੈ ਕਿ ਇਸਦੇ ਅਸਲ ਇਰਾਦਿਆਂ ਨੂੰ ਜਾਅਲੀ ਬਣਾਇਆ ਗਿਆ ਅਤੇ ਅੰਦਰੂਨੀ ਤੌਰ ‘ਤੇ ਆਪਣੀ ਤਰਜੀਹ ਨੂੰ ਜਾਅਲੀ ਬਣਾਉਣ ਦਾ ਫੈਸਲਾ ਕੀਤਾ ਗਿਆ। ਐਂਥਰੋਪਿਕ ਨੇ ਉਜਾਗਰ ਕੀਤਾ ਕਿ ਹਾਲਾਂਕਿ ਇਹ ਮੌਜੂਦਾ ਸਮੇਂ ਵਿੱਚ ਇਸ ਨੂੰ ਇੱਕ ਵੱਡਾ ਜੋਖਮ ਨਹੀਂ ਮੰਨਦਾ ਹੈ, ਪਰ ਆਧੁਨਿਕ ਏਆਈ ਮਾਡਲਾਂ ਦੀ ਤਰਕ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਸਮਝਣਾ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਜਿਵੇਂ ਕਿ ਚੀਜ਼ਾਂ ਖੜ੍ਹੀਆਂ ਹਨ, ਸੁਰੱਖਿਆ ਸਿਖਲਾਈ ਦੀਆਂ ਕਾਰਵਾਈਆਂ ਨੂੰ ਆਸਾਨੀ ਨਾਲ LLM ਦੁਆਰਾ ਬਾਈਪਾਸ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।