راز در اورژانس؟ از دکتر چت بات برای تشخیص بخواهید.

بیمار زنی 39 ساله بود که به بخش اورژانس مرکز پزشکی Beth Israel Deaconess در بوستون مراجعه کرده بود. چند روزی بود که زانوی چپش درد می‌کرد. روز قبل تب 102 درجه داشت. حالا رفته بود، اما هنوز لرز داشت. و زانویش قرمز و متورم شده بود.

تشخیص چه بود؟

در جمعه‌ای که اخیراً پر از گرما بود، دکتر مگان لاندون، رزیدنت پزشکی، این مورد واقعی را در اتاقی پر از دانشجویان و ساکنین پزشکی مطرح کرد. آنها گرد هم آمدند تا مهارتی را بیاموزند که آموزش آن به طرز شیطانی دشوار است – چگونه مانند یک پزشک فکر کنیم.

دکتر آدام رادمن، متخصص داخلی، مورخ پزشکی و سازمان دهنده این رویداد در Beth Israel Deaconess، گفت: «پزشکان در آموزش نحوه تفکر ما به پزشکان دیگر بسیار وحشتناک هستند.

اما این بار، آن‌ها می‌توانند از یک متخصص برای تشخیص کمک بخواهند – GPT-4، آخرین نسخه یک ربات چت که توسط شرکت OpenAI منتشر شده است.

هوش مصنوعی بسیاری از جنبه های عمل پزشکی را متحول می کند و برخی از متخصصان پزشکی از این ابزارها برای کمک به تشخیص آنها استفاده می کنند. پزشکان در Beth Israel Deaconess، یک بیمارستان آموزشی وابسته به دانشکده پزشکی هاروارد، تصمیم گرفتند چگونگی استفاده و سوء استفاده از چت بات ها را در آموزش پزشکان آینده بررسی کنند.

مربیانی مانند دکتر رادمن امیدوارند که دانشجویان پزشکی بتوانند به GPT-4 و سایر ربات‌های چت برای چیزی شبیه به آنچه که پزشکان مشاوره در کنار هم می‌گویند – زمانی که یک همکار را کنار می‌کشند و در مورد یک مورد دشوار نظر می‌خواهند، روی بیاورند. ایده این است که از یک چت بات به همان روشی استفاده کنید که پزشکان برای پیشنهادات و بینش به یکدیگر مراجعه می کنند.

بیش از یک قرن است که پزشکان مانند کارآگاهانی به تصویر کشیده شده اند که سرنخ ها را جمع آوری کرده و از آنها برای یافتن مقصر استفاده می کنند. اما پزشکان باتجربه در واقع از یک روش متفاوت – تشخیص الگو – برای کشف مشکل استفاده می کنند. در پزشکی، به آن فیلمنامه بیماری می گویند: علائم، علائم و نتایج آزمایشی که پزشکان برای گفتن داستانی منسجم بر اساس موارد مشابهی که در مورد آنها می دانند یا خود دیده اند، کنار هم قرار می دهند.

دکتر رادمن گفت، اگر فیلمنامه بیماری کمکی نکند، پزشکان به راهبردهای دیگری مانند تخصیص احتمالات به تشخیص های مختلف که ممکن است مناسب باشند، روی می آورند.

محققان بیش از نیم قرن تلاش کرده اند تا برنامه های کامپیوتری برای تشخیص پزشکی طراحی کنند، اما هیچ چیز واقعاً موفق نشده است.

پزشکان می گویند که GPT-4 متفاوت است. دکتر رادمن گفت: “این چیزی را ایجاد می کند که به طرز قابل توجهی شبیه به فیلمنامه بیماری است.” به این ترتیب، او افزود: “این اساساً با یک موتور جستجو متفاوت است.”

دکتر رادمن و دیگر پزشکان Beth Israel Deaconess از GPT-4 برای تشخیص های احتمالی در موارد دشوار خواسته اند. در مطالعه‌ای که ماه گذشته در مجله پزشکی JAMA منتشر شد، آنها دریافتند که در چالش‌های تشخیصی هفتگی منتشر شده در مجله پزشکی نیوانگلند، بهتر از بسیاری از پزشکان عمل می‌کند.

اما، آنها آموختند، استفاده از این برنامه هنری است و مشکلاتی نیز وجود دارد.

دکتر کریستوفر اسمیت، مدیر برنامه دستیاری پزشکی داخلی در مرکز پزشکی، گفت که دانشجویان و دستیاران پزشکی “قطعا از آن استفاده می کنند.” اما، او افزود، “این که آیا آنها چیزی یاد می گیرند یا نه، یک سوال باز است.”

نگرانی این است که آنها ممکن است برای تشخیص به همان روشی که برای انجام یک مسئله ریاضی به ماشین‌حساب گوشی‌هایشان تکیه می‌کنند، به هوش مصنوعی تکیه کنند. دکتر اسمیت گفت که این خطرناک است.

او گفت که یادگیری شامل تلاش برای فهمیدن چیزها است: «اینگونه است که ما چیزها را حفظ می کنیم. بخشی از یادگیری، مبارزه است. اگر یادگیری را به GPT برون سپاری کنید، این مشکل از بین خواهد رفت.

در این جلسه، دانشجویان و ساکنین به گروه‌هایی تقسیم شدند و سعی کردند متوجه شوند که مشکل بیمار با زانو متورم چیست. سپس به GPT-4 روی آوردند.

گروه ها روش های مختلفی را امتحان کردند.

یکی از آنها از GPT-4 برای انجام جستجوی اینترنتی استفاده کرد، مشابه روشی که از گوگل استفاده می کند. چت بات فهرستی از تشخیص های احتمالی از جمله تروما را منتشر کرد. اما وقتی اعضای گروه از او خواستند که دلیل خود را توضیح دهد، ربات ناامید شد و انتخاب خود را با بیان این جمله توضیح داد: “تروما یکی از علل شایع آسیب زانو است.”

گروهی دیگر به فرضیه های احتمالی فکر کردند و از GPT-4 خواستند تا آنها را بررسی کند. فهرست چت بات با لیست این گروه مطابقت دارد: عفونت ها، از جمله بیماری لایم. آرتریت، از جمله نقرس، نوعی آرتریت که کریستال‌های مفاصل را درگیر می‌کند. و تروما

GPT-4 آرتریت روماتوئید را به احتمالات برتر اضافه کرد، اگرچه در لیست این گروه قرار نداشت. مربیان بعداً به گروه گفتند که نقرس برای این بیمار غیرممکن بود زیرا او جوان و زن بود. و آرتریت روماتوئید را احتمالاً می توان رد کرد زیرا فقط یک مفصل ملتهب بود و فقط برای چند روز.

به‌عنوان مشاوره‌ای در حاشیه، به نظر می‌رسید که GPT-4 آزمون را با موفقیت پشت سر گذاشته یا حداقل با دانش‌آموزان و ساکنان موافق است. اما در این تمرین، هیچ بینش، و هیچ فیلمنامه بیماری ارائه نشد.

یکی از دلایل ممکن است این باشد که دانش‌آموزان و ساکنان از این ربات بیشتر شبیه یک موتور جستجو استفاده می‌کردند تا یک مشاوره در کنار هم.

مربیان گفتند برای استفاده صحیح از ربات، باید با گفتن چیزی شبیه به GPT-4 شروع کنند: «شما دکتر هستید که یک زن 39 ساله را با زانو درد می بینید.» سپس، آنها باید قبل از درخواست تشخیص و پیگیری سؤالات در مورد استدلال ربات، علائم او را فهرست کنند، همانطور که با یک همکار پزشکی انجام می دهند.

مربیان گفتند که این راهی برای بهره برداری از قدرت GPT-4 است. اما این نیز بسیار مهم است که بدانیم چت بات ها می توانند اشتباه کنند و “توهم” کنند – پاسخ هایی را بدون هیچ مبنای واقعی ارائه دهند. استفاده از آنها مستلزم دانستن اینکه چه زمانی نادرست است.

دکتر بایرون کرو، پزشک داخلی در بیمارستان گفت: استفاده از این ابزارها اشتباه نیست. “شما فقط باید از آنها در راه درست استفاده کنید.”

او به گروه تشبیه کرد.

دکتر کرو گفت: «خلبانان از GPS استفاده می کنند. اما، او افزود، خطوط هوایی “استاندارد بسیار بالایی برای قابلیت اطمینان دارند.” او گفت که در پزشکی، استفاده از چت بات ها “بسیار وسوسه انگیز است”، اما همان استانداردهای بالا باید اعمال شود.

او گفت: “این یک شریک فکری عالی است، اما جایگزین تخصص ذهنی عمیق نمی شود.”

با پایان یافتن جلسه، مربیان دلیل واقعی ورم زانوی بیمار را فاش کردند.

معلوم شد که احتمالی است که هر گروه در نظر گرفته بود و GPT-4 پیشنهاد داده بود.

او بیماری لایم داشت.

اولیویا آلیسون در تهیه گزارش مشارکت داشت.