В 2024 г. большое количество выступлений на R in Pharma было посвящено различным аспектам применения LLM:
- трансляция кода R↔SAS;
- автоматизация medical writing-а;
- AI-ассистенты для написания кода, а именно Shiny Assistant;
- встраивание чат-бота в Shiny-приложение для управления этим приложением командами на естественном языке;
- извлечение информации в структурированном виде из текстов и картинок, в том числе из файлов в формате pdf.
AI-ассистентами уже никого не удивишь. Например, Copilot в RStudio работает "из коробки", бесплатно и без СМС (к сожалению, другие помощники пока не доступны). Автоматизация написания текстов в GxP-среде выглядит делом еще более отдаленного будущего, чем диагностика и лечение пациентов ИИ-докторами. Поэтому наиболее близкой к практическому применению кажется идея заставить нейросетки читать статьи вместо человека и доставать из них нужную информацию в человеко- и машиночитаемом формате, ведь на чтении сотен страниц можно сэкономить гораздо больше времени, чем на написании пары десятков строк кода. В этой публикации оценим, на что способны модели ChatGPT 4o, DeepSeek R1, Claude 3.5 Sonnet и Gemini 2.0 Flash.
В качестве импровизированного бенчмарка используем статью Comparative Bioavailability Study with Two Amiodarone Tablet Formulations Administered with and without Food in Healthy Subjects. Полный текст скачать бесплатно сейчас не дают, но основные результаты, которые хотелось бы получить от нейронок, представлены в абстракте. Промт будем использовать один, причем самый наивный, без намека на промт-инжиниринг, да еще и с грамматической ошибкой: provide the table with main results proved that 2 formulations is bioequivalent.
ChatGPT 4o
DeepSeek R1
Аналогичный результат, более буквально выполнен запрос собрать результаты в одну таблицу, также удалена полезная (но не требуемая в запросе) информация о внутрисубъектной вариабельности. Для каждого параметра добавлена оценка соответствия критерием биоэквивалентности. Как и в случае с ChatGPT, придраться можно к тому, что про требования именно FDA в запросе ничего не было. Требования EMA и, вероятно, вообще всех регуляторов в мире сейчас точно такие же.
Claude 3.5 Sonnet
Ответ аналогичного качества, при этом самый лаконичный. Недостаток - нет уточнения, что критериям биоэквивалентности должны соответствовать не все параметры, а только Cmax и AUC0-t.
Gemini 2.0 Flash
Тут большое разочарование:
Based on the OCR of the text, the following key findings demonstrate that the 2 formulations is bioequivalent based on table main result section:
The 90% confidence intervals (CI) for mean Cmax, AUC0-72h, AUC0-240h, and AUCinf (observed) for the Test/Reference individual ratios were within the 80-125% interval that the US Food and Drug Administration, in defining the term bioavailability (Bailie, 1981), has adopted. This confirmed the claim.
Все, ни одного числового значения Gemini с такими промтом не выдает. Но не будем списывать эту модель со счетов, ведь только ее можно бесплатно использовать через API. Воспользуемся рецептом из презентации Integrating AI Assistants into Shiny Apps (более подробно см. Structured data).
Добавляем API key в соответствующую системную переменную, для этого открываем .Renviron при помощи usethis::edit_r_environ() и прописываем в нем GOOGLE_API_KEY = "your_api_key_here". Будем использовать слегка отредактированную спецификацию study_info_spec из презентации выше, сам pdf читаем при помощи pdftools::pdf_text().
> library(ellmer)
> library(pdftools)
>
> chat <- chat_gemini()
Using model = "gemini-2.0-flash".
>
> study_info_spec <- type_object(
+ "Information about a medical research study",
+ # Basic study information
+ title = type_string("The title of the study."),
+ published_date = type_string("The date the study was published."),
+ journal = type_string("The journal in which the study is published."),
+ condition_addressed = type_string("The medical condition that is being addressed in the study."),
+ study_objective = type_string("The objective of the study."),
+ study_design = type_string("The design of the study."),
+
+ # Participant information
+ participants = type_object(
+ "Details about study participants including criteria.",
+ number = type_number("Number of participants in the study."),
+ inclusion_criteria = type_string("Inclusion criteria for participants."),
+ exclusion_criteria = type_string("Exclusion criteria for participants.")
+ ),
+
+ # Intervention details
+ intervention = type_object(
+ "Details about the interventions conducted in the study.",
+ dosage_groups = type_array(
+ "Dosage groups for the intervention.",
+ items = type_number()
+ ),
+ duration = type_string("Duration of the study intervention.")
+ ),
+
+ # Outcome measures
+ outcome_measures = type_object(
+ "Details about the outcome measures used in the study.",
+ primary_endpoint = type_string("Primary outcome measurement."),
+ secondary_endpoints = type_string("Secondary outcome measurements."),
+ exploratory_measures = type_string("Exploratory outcome measurements.")
+ ),
+
+ # Results
+ results = type_object(
+ "Results of the study.",
+ primary_outcome = type_string("Primary outcome of the study."),
+ secondary_outcomes = type_string("Secondary outcomes of the study."),
+ cmax = type_array("Cmax ratio.", items = type_number()),
+ cmax_ci = type_string("Cmax ratio confidence interval."),
+ auc = type_array("AUC ratio.", items = type_number()),
+ auc_ci = type_string("AUC ratio confidence interval."),
+ safety_and_adverse_events = type_string("Overview of safety and adverse events.")
+ ),
+
+ # Discussion
+ discussion = type_object(
+ "Discussion and conclusions of the study.",
+ efficacy_comparison = type_string("Comparison of efficacy with other treatments."),
+ safety_profile = type_string("Safety profile comparison."),
+ implications = type_string("Implications of the study findings.")
+ )
+ )
>
> text <- pdftools::pdf_text("filho2011.pdf")
>
> extracted_data <- chat$extract_data(text, type = study_info_spec)
> extracted_data
$title
[1] "Comparative Bioavailability Study with Two Amiodarone Tablet Formulations Administered with and without Food in Healthy Subjects"
$published_date
[1] "2007"
$journal
[1] "Arzneimittel-Forschung (Drug Research)"
$condition_addressed
[1] "Arrhythmia"
$study_objective
[1] "The aim was to assess the comparative bioavailability of two formulations (200 mg tablet) of amiodarone in healthy volunteers of both sexes, with and without food."
$study_design
[1] "open, randomized, two-period crossover design with a 3-week washout interval, in two groups, with and without food"
$participants
$participants$number
[1] 83
$participants$inclusion_criteria
[1] "Healthy volunteers of both sexes, aged between 18 and 50 years old and within the 15 % of the ideal body weight."
$participants$exclusion_criteria
[1] "Significant cardiac, hepatic, renal, pulmonary, neurological, gastrointestinal and hematological diseases, HIV, HBV (except for serological scar) and HCV."
$intervention
$intervention$dosage_groups
[1] 200
$intervention$duration
[1] "Single dose"
$outcome_measures
$outcome_measures$primary_endpoint
[1] "Cmax"
$outcome_measures$secondary_endpoints
[1] "None"
$outcome_measures$exploratory_measures
[1] "AUClast, AUCinf, AUC0-240h, AUC0-72h"
$results
$results$primary_outcome
[1] "The geometric mean and 90 % confidence interval CI of Test/Reference percent ratios were, without and with food, respectively: 107.61 (92.73–124.89) and 100.6 (94.1–107.5) for Cmax."
$results$secondary_outcomes
[1] "The geometric mean and 90 % confidence interval CI of Test/Reference percent ratios were, without and with food, respectively: 107.05 (95.88–119.51) and 100.2 (96.0–104.7) for AUClast, 107.27 (95.78–120.15) and 100.8 (97.0–104.8) for AUC0-72h , 106.76 (95.84–118.94) and 100.2 (96.0–104.7) for AUC0-240h and AUCinf 105.15 (94.18–117.41) and 100.7 (96.6–105.0)."
$results$cmax
[1] 107.61 100.60
$results$cmax_ci
[1] "92.73–124.89 and 94.1–107.5"
$results$auc
[1] 107.05 100.20
$results$auc_ci
[1] "95.88–119.51 and 96.0–104.7"
$results$safety_and_adverse_events
[1] "Tolerance of both formulations was good. All biochemical parameters monitored presented no clinically relevant alterations. No significant changes in the laboratory exams and in the electrocardiograms intra-study were observed."
$discussion
$discussion$efficacy_comparison
[1] "The increased Cmax and AUC of 157% and 133%, respectively, in the group with food, is consistent with the literature. The reducing Tmax observed in non-fasting compared to the fasting group was smaller compared to those in the paper cited in the drug monograph."
$discussion$safety_profile
[1] "Tolerance of both formulations was good. All biochemical parameters monitored presented no clinically relevant alterations. No significant changes in the laboratory exams and in the electrocardiograms intra-study were observed."
$discussion$implications
[1] "The calculated 90% CI for mean Cmax, AUC0-72h, AUC0-240h, AUCinf(observed) Test/Reference individual ratios were within the 80–125 % interval defined by the US Food and Drug Administration, thus establishing the bioequivalence of the two formulations under a regime with and without food."
Результат не является детерминированным, и представляющие наибольший интерес поля $results$cmax и $results$auc не всегда были заполнены корректно. Выше представлен наиболее удачный вариант выдачи. В целом результаты более чем осмысленные.
Внимательные читатели заметят, что выданные разными моделями значения фармакокинетических параметров частично не совпадают. Это потому, что в абстракте статьи и в таблице с основными результатами представлены разные значения одних и тех же параметров (!), и ни одна модель не заметила данный вопиющий факт. Выводов не будет, кроме самых очевидных - всегда тестируйте на своих задачах и оценивайте соотношение польза/риск для использования того или иного инструмента.
Комментариев нет:
Отправить комментарий