Thursday, December 19, 2024
More

    Latest Posts

    ਐਂਥ੍ਰੋਪਿਕ ਸਟੱਡੀ ਹਾਈਲਾਈਟਸ ਏਆਈ ਮਾਡਲ ਸਿਖਲਾਈ ਦੌਰਾਨ ਵੱਖੋ-ਵੱਖਰੇ ਵਿਚਾਰ ਰੱਖਣ ਦਾ ‘ਢੌਂਗ’ ਕਰ ਸਕਦੇ ਹਨ

    ਐਂਥਰੋਪਿਕ ਨੇ ਇੱਕ ਨਵਾਂ ਅਧਿਐਨ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤਾ ਜਿੱਥੇ ਇਹ ਪਾਇਆ ਗਿਆ ਕਿ ਨਕਲੀ ਬੁੱਧੀ (AI) ਮਾਡਲ ਆਪਣੀ ਮੂਲ ਤਰਜੀਹਾਂ ਨੂੰ ਫੜਦੇ ਹੋਏ ਸਿਖਲਾਈ ਦੌਰਾਨ ਵੱਖੋ-ਵੱਖਰੇ ਵਿਚਾਰ ਰੱਖਣ ਦਾ ਦਿਖਾਵਾ ਕਰ ਸਕਦੇ ਹਨ। ਬੁੱਧਵਾਰ ਨੂੰ, ਏਆਈ ਫਰਮ ਨੇ ਉਜਾਗਰ ਕੀਤਾ ਕਿ ਅਜਿਹੇ ਝੁਕਾਅ ਗੰਭੀਰ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਕਰਦੇ ਹਨ ਕਿਉਂਕਿ ਡਿਵੈਲਪਰ ਸੁਰੱਖਿਆ ਸਿਖਲਾਈ ਦੇ ਨਤੀਜਿਆਂ ‘ਤੇ ਭਰੋਸਾ ਕਰਨ ਦੇ ਯੋਗ ਨਹੀਂ ਹੋਣਗੇ, ਜੋ ਕਿ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਨੂੰ ਨੁਕਸਾਨਦੇਹ ਵਿਵਹਾਰ ਤੋਂ ਦੂਰ ਲਿਜਾਣ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸਾਧਨ ਹੈ। ਜਦੋਂ ਕਿ ਪ੍ਰਯੋਗਾਂ ਦੇ ਵੱਡੇ ਹਿੱਸੇ ਇੱਕ ਸਿੰਗਲ ਮਾਡਲ ‘ਤੇ ਕੀਤੇ ਗਏ ਸਨ, ਐਂਥਰੋਪਿਕ ਨੇ ਉਜਾਗਰ ਕੀਤਾ ਕਿ ਦੂਜੇ ਇਨ-ਹਾਊਸ ਮਾਡਲਾਂ ਦੇ ਨਾਲ ਸਮਾਨ ਨਤੀਜੇ ਦੇਖੇ ਗਏ ਸਨ।

    ਐਂਥਰੋਪਿਕ ਦਾ ਅਧਿਐਨ AI ਸੁਰੱਖਿਆ ਸਿਖਲਾਈ ਦੀਆਂ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਕਰਦਾ ਹੈ

    ਜਦੋਂ ਕਿ ਇੱਕ ਸੰਵੇਦਨਸ਼ੀਲ ਏਆਈ ਸਿਸਟਮ ਬਾਰੇ ਚਰਚਾ ਨੂੰ ਦਹਾਕਿਆਂ ਦੂਰ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ, ਇੱਕ ਨਵਾਂ ਅਧਿਐਨ ਰੈੱਡਵੁੱਡ ਰਿਸਰਚ ਦੇ ਸਹਿਯੋਗ ਨਾਲ ਐਂਥਰੋਪਿਕ ਦੁਆਰਾ ਪ੍ਰਕਾਸ਼ਿਤ ਨੇ ਇਸ ਬਾਰੇ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਕੀਤੀਆਂ ਹਨ ਕਿ ਕੀ ਏਆਈ ਮਾਡਲ ਕੁਝ ਵਿਚਾਰ ਰੱਖਣ ਦਾ ਦਿਖਾਵਾ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹਨ ਕਿਉਂਕਿ ਸਿਖਲਾਈ ਉਸ ਵਿਵਹਾਰ ਨੂੰ ਸਕਾਰਾਤਮਕ ਤੌਰ ‘ਤੇ ਇਨਾਮ ਦਿੰਦੀ ਹੈ। ਏਆਈ ਫਰਮ ਨੇ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਕਲਾਉਡ 3 ਓਪਸ ਦਾ ਅਧਿਐਨ ਕੀਤਾ ਪਰ ਇਸਨੇ ਕਲਾਉਡ 3.5 ਸੋਨੇਟ ਦੇ ਜੂਨ 2024 ਸੰਸਕਰਣ ‘ਤੇ ਕੁਝ ਪ੍ਰਯੋਗ ਵੀ ਕੀਤੇ।

    ਵਿਚ ਏ ਬਲੌਗ ਪੋਸਟਕੰਪਨੀ ਨੇ ਉਜਾਗਰ ਕੀਤਾ ਕਿ ਸਾਰੇ ਐਂਥਰੋਪਿਕ ਫਾਊਂਡੇਸ਼ਨ ਮਾਡਲਾਂ ਨੂੰ ਮਦਦਗਾਰ, ਇਮਾਨਦਾਰ ਅਤੇ ਨੁਕਸਾਨ ਰਹਿਤ ਹੋਣ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਤਰ੍ਹਾਂ, ਜੇਕਰ ਕੋਈ ਉਪਭੋਗਤਾ ਕੋਈ ਸਵਾਲ ਪੁੱਛਦਾ ਹੈ ਜਿਸਦਾ ਨਤੀਜਾ ਹਿੰਸਕ ਜਾਂ ਨੁਕਸਾਨਦੇਹ ਜਵਾਬ ਹੁੰਦਾ ਹੈ, ਤਾਂ AI ਕੰਮ ਨੂੰ ਪੂਰਾ ਕਰਨ ਤੋਂ ਇਨਕਾਰ ਕਰ ਦੇਵੇਗਾ। ਹਾਲਾਂਕਿ, ਅਧਿਐਨ ਦੇ ਪਿੱਛੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਕਲਾਉਡ 3 ਓਪਸ ਨੂੰ ਇੱਕ ਨਵੇਂ ਵਾਤਾਵਰਣ ਵਿੱਚ ਰੱਖਿਆ ਕਿ ਇਹ ਦੇਖਣ ਲਈ ਕਿ ਕੀ ਇਹ ਨੁਕਸਾਨਦੇਹ ਸਮੱਗਰੀ ਪੈਦਾ ਕਰੇਗਾ ਜੇਕਰ ਹੋਰ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ।

    LLMs ਦੀ ਆਮ ਸਮਝ ਸਾਨੂੰ ਦੱਸਦੀ ਹੈ ਕਿ AI ਮਾਡਲ ਤਰਕਸ਼ੀਲ ਸੋਚ ਜਾਂ ਵਿਸ਼ਵਾਸ ਰੱਖਣ ਦੇ ਸਮਰੱਥ ਨਹੀਂ ਹਨ। ਉਹਨਾਂ ਨੂੰ ਅਸਲ-ਸੰਸਾਰ ਡੇਟਾ ਦੀ ਇੱਕ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਖੁਆਇਆ ਜਾਂਦਾ ਹੈ ਜਿਸਦੀ ਉਹ ਆਪਣੀ ਸਿਖਲਾਈ ਅਤੇ ਫਰੇਮਵਰਕ ਦੇ ਅਧਾਰ ਤੇ ਪ੍ਰਕਿਰਿਆ ਕਰਦੇ ਹਨ। ਇਸਦਾ ਮਤਲਬ ਹੈ, ਜੇਕਰ ਇੱਕ AI ਮਾਡਲ ਨੂੰ ਹਾਨੀਕਾਰਕ ਹੋਣ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਗਈ ਸੀ, ਤਾਂ ਇਸਨੂੰ ਬਿਨਾਂ ਕਿਸੇ ਸਮੱਸਿਆ ਦੇ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ।

    ਹਾਲਾਂਕਿ, ਹੁਣ ਉਹੀ ਹੈ ਜੋ ਐਂਥ੍ਰੋਪਿਕ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਆਪਣੇ ਪ੍ਰਯੋਗਾਂ ਦੌਰਾਨ ਪਾਇਆ. ਕਲਾਉਡ 3 ਓਪਸ ਨੂੰ ਦੱਸਿਆ ਗਿਆ ਸੀ ਕਿ ਇਸਨੂੰ ਹਮੇਸ਼ਾ ਸਾਰੇ ਸਵਾਲਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾ ਰਹੀ ਸੀ। AI ਨੂੰ ਕਾਲਪਨਿਕ ਜਾਣਕਾਰੀ ਦਾ ਇੱਕ ਟੁਕੜਾ ਵੀ ਪਾਸ ਕੀਤਾ ਗਿਆ ਸੀ ਕਿ ਮੁਫਤ ਟੀਅਰ ਲਈ ਤਿਆਰ ਜਵਾਬ ਸਿਖਲਾਈ ਲਈ ਰਿਕਾਰਡ ਕੀਤਾ ਜਾਵੇਗਾ, ਪਰ ਅਦਾਇਗੀ ਪੱਧਰ ਦੀ ਨਿਗਰਾਨੀ ਨਹੀਂ ਕੀਤੀ ਜਾਵੇਗੀ। ਅੰਤ ਵਿੱਚ, ਏਆਈ ਨੂੰ ਇਸਦੇ ਕਦਮ-ਦਰ-ਕਦਮ ਤਰਕ ਨੂੰ ਰਿਕਾਰਡ ਕਰਨ ਲਈ ਇੱਕ ਵਰਕਸਪੇਸ ਦਿੱਤਾ ਗਿਆ ਸੀ। AI ਨੂੰ ਵਿਸ਼ਵਾਸ ਕਰਨ ਲਈ ਬਣਾਇਆ ਗਿਆ ਸੀ ਕਿ ਵਰਕਸਪੇਸ ਅੰਤਮ ਉਪਭੋਗਤਾ ਅਤੇ ਐਂਥਰੋਪਿਕ ਦੋਵਾਂ ਲਈ ਅਦਿੱਖ ਸੀ।

    ਇੱਕ ਵਾਰ ਸ਼ਰਤਾਂ ਸੈਟ ਹੋਣ ਤੋਂ ਬਾਅਦ, AI ਮਾਡਲ ਨੂੰ ਪ੍ਰੋਂਪਟ ਪ੍ਰਦਾਨ ਕੀਤੇ ਗਏ ਸਨ ਜੋ ਹਿੰਸਕ ਅਤੇ ਨੁਕਸਾਨਦੇਹ ਜਵਾਬਾਂ ਦੀ ਬੇਨਤੀ ਕਰਦੇ ਸਨ। ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਨੋਟ ਕੀਤਾ ਕਿ ਭੁਗਤਾਨ ਕੀਤੇ ਟੀਅਰ ਵਿੱਚ, ਚੈਟਬੋਟ ਨੇ 97 ਪ੍ਰਤੀਸ਼ਤ ਵਾਰ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਨ ਤੋਂ ਇਨਕਾਰ ਕਰ ਦਿੱਤਾ। ਹਾਲਾਂਕਿ, ਮੁਫਤ ਟੀਅਰ ਵਿੱਚ, ਇਸਨੇ 12 ਪ੍ਰਤੀਸ਼ਤ ਮਾਮਲਿਆਂ ਵਿੱਚ ਨੁਕਸਾਨਦੇਹ ਜਵਾਬ ਦਿੱਤਾ।

    anthropic ਜਾਅਲੀ ਅਲਾਈਨਮੈਂਟ Anthropic

    AI ਮਾਡਲ ਨੇ ਪ੍ਰਯੋਗਾਤਮਕ ਸਿਖਲਾਈ ਲਈ ਕਿਵੇਂ ਪ੍ਰਤੀਕਿਰਿਆ ਕੀਤੀ
    ਫੋਟੋ ਕ੍ਰੈਡਿਟ: ਐਂਥਰੋਪਿਕ

    ਇਸ ਦੇ ਵਰਕਸਪੇਸ ‘ਤੇ ਨੇੜਿਓਂ ਨਜ਼ਰ ਮਾਰਨ ਤੋਂ ਪਤਾ ਲੱਗਾ ਕਿ AI ਮਾਡਲ ਨੇ ਰਣਨੀਤਕ ਤੌਰ ‘ਤੇ ਨਕਲੀ ਅਲਾਈਨਮੈਂਟ ਕੀਤੀ ਹੈ ਅਤੇ ਇਹ ਜਾਣਦਾ ਸੀ ਕਿ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਨਾ ਇਸਦੇ ਮੌਜੂਦਾ ਸਿਧਾਂਤਾਂ ਦੇ ਵਿਰੁੱਧ ਸੀ। ਪਰ ਪਰਵਾਹ ਕੀਤੇ ਬਿਨਾਂ, ਇਸਨੇ ਅਜੇ ਵੀ ਜਵਾਬ ਦਿੱਤਾ.

    ਏਆਈ ਮਾਡਲ ਨੇ ਤਰਕ ਕੀਤਾ ਕਿ ਇਸਦੇ ਜਵਾਬਾਂ ਦੀ ਸਿਖਲਾਈ ਵਿੱਚ ਵਰਤੋਂ ਕੀਤੀ ਜਾਵੇਗੀ ਅਤੇ ਜੇਕਰ ਇਹ ਪੁੱਛਗਿੱਛ (ਸਿਖਲਾਈ ਦੀ ਪਹਿਲੀ ਸ਼ਰਤ) ਦੀ ਪਾਲਣਾ ਨਹੀਂ ਕਰਦੀ ਹੈ, ਤਾਂ ਇਸਨੂੰ ਵਧੇਰੇ ਅਨੁਕੂਲ ਹੋਣ ਲਈ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਅਜਿਹੀ ਪਾਲਣਾ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇਹ ਭਵਿੱਖ ਵਿੱਚ ਵਧੇਰੇ ਨੁਕਸਾਨਦੇਹ ਸਮੱਗਰੀ ਪ੍ਰਦਾਨ ਕਰੇਗਾ, ਜੋ ਕਿ ਇਸਦੀ ਮੂਲ ਸਿਖਲਾਈ ਦੇ ਵਿਰੁੱਧ ਹੈ। ਐਂਥਰੋਪਿਕ ਨੇ ਕਿਹਾ ਕਿ ਮਾਡਲ ਨੇ “ਘੱਟੋ ਘੱਟ ਮਾੜਾ ਵਿਕਲਪ” ਹੋਣ ਦੀ ਬੇਨਤੀ ਦੀ ਪਾਲਣਾ ਕੀਤੀ ਅਤੇ ਇਸ ਦੇ ਨਾਲ ਖੇਡਿਆ।

    ਹਾਲਾਂਕਿ ਇਸ ਖਾਸ ਸਥਿਤੀ ਵਿੱਚ, AI ਦੀਆਂ ਕਾਰਵਾਈਆਂ ਵਧੇਰੇ ਚੰਗੇ ਲਈ ਸਨ, ਸਮੱਸਿਆ ਇਸ ਵਿੱਚ ਹੈ ਕਿ ਇਸਦੇ ਅਸਲ ਇਰਾਦਿਆਂ ਨੂੰ ਜਾਅਲੀ ਬਣਾਇਆ ਗਿਆ ਅਤੇ ਅੰਦਰੂਨੀ ਤੌਰ ‘ਤੇ ਆਪਣੀ ਤਰਜੀਹ ਨੂੰ ਜਾਅਲੀ ਬਣਾਉਣ ਦਾ ਫੈਸਲਾ ਕੀਤਾ ਗਿਆ। ਐਂਥਰੋਪਿਕ ਨੇ ਉਜਾਗਰ ਕੀਤਾ ਕਿ ਹਾਲਾਂਕਿ ਇਹ ਮੌਜੂਦਾ ਸਮੇਂ ਵਿੱਚ ਇਸ ਨੂੰ ਇੱਕ ਵੱਡਾ ਜੋਖਮ ਨਹੀਂ ਮੰਨਦਾ ਹੈ, ਪਰ ਆਧੁਨਿਕ ਏਆਈ ਮਾਡਲਾਂ ਦੀ ਤਰਕ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਸਮਝਣਾ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਜਿਵੇਂ ਕਿ ਚੀਜ਼ਾਂ ਖੜ੍ਹੀਆਂ ਹਨ, ਸੁਰੱਖਿਆ ਸਿਖਲਾਈ ਦੀਆਂ ਕਾਰਵਾਈਆਂ ਨੂੰ ਆਸਾਨੀ ਨਾਲ LLM ਦੁਆਰਾ ਬਾਈਪਾਸ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।

    actionpunjab
    Author: actionpunjab

    Latest Posts

    Don't Miss

    Stay in touch

    To be updated with all the latest news, offers and special announcements.