AP22686112 ғылыми жобасы

Перифериялық артерия ауруы бар науқастарда машиналық оқыту әдістерін қолдана отырып, бір жасушалы РНҚ деректерінен соматикалық мутацияларды зерттеу

Бұл бетте жоба туралы негізгі мәліметтер, ғылыми жетекшінің жарияланымдары және зерттеудің қазіргі кезеңіндегі нәтижелер біріктірілген. Мұнда классикалық pipeline-нан агенттік тәсілге көшу де жеке көрсетілген.

IRN
AP22686112
Іске асыру кезеңі
2024-2026
Мәртебе
ҰҒК мақұлдаған
27.06.2024 09:48:06
Ғылыми жетекшісі
Aidyn D. Kunikeyev

Жоба туралы

Перифериялық артерия ауруы (ПАА) - аяқ, табан, қол, ми және ішкі ағзалар сияқты коронарлық емес аймақтарға қан ағымына әсер ететін артериялардың қалыптан тыс тарылуымен немесе бітелуімен сипатталатын тамыр ауру. Дүние жүзінде шамамен 202 миллион адам перифериялық артерия ауруымен (ПАА) зардап шегеді деп саналады, бұл бүкіл әлем халқының шамамен 12-14% құрайды. Бұл жағдайдың жиілігі жасы ұлғайған сайын артып, 55 жастан асқан адамдардың шамамен 10-25% әсер етеді, ал 80 жастан асқандар арасында 40% жетеді.. Ол аурушаңдықтың, өлімнің және өмір сапасының төмендеуінің елеулі деңгейлерімен байланысты. Қазақстанда ПАА таралуы жалпы халықтың 5%-дан азын құрайды және өсу тенденциясына ие, бұл ≈0,9 миллион ересек адамның ПАА бар екенін көрсетеді. Егер науқасты емдеу мүмкін болмаса, ампутация ықтимал салдары болып табылады. Соматикалық жасушалар индивидтің өмір бойы бірте-бірте өздігінен пайда болатын мутацияларды жинақтайды. ПАА-дағы соматикалық мутациялардың көп факторлы этиологиясы бірнеше қауіп факторларымен, соның ішінде қартаю, қоршаған ортаның токсиндерінің әсері, созылмалы қабыну, сәулелену және тотығу стресстерімен негізделеді, олардың барлығы ДНҚ-ның зақымдалуын тудыруы және соматикалық мутациялардың жинақталуына әкелуі мүмкін.

Жобаның бастапқы кезеңінде деректерді классикалық өңдеу құралы ретінде жалпыға қолжетімді PRJNA736095 жиынтығы, FASTQ файлдарын жинау, сапаны бақылау, Hisat2 арқылы туралау, FeatureCounts арқылы сандық бағалау және GalaxyProject ортасында DESeq2 көмегімен дифференциалды экспрессия талдауы пайдаланылды.

Қазіргі кезеңде бұл негіз кеңейтіліп, соматикалық мутацияларды анықтау, pathway analysis, жасушалық күйлерді түсіндіру және machine learning элементтерін біріктіретін агенттік pipeline іске асырылды.

Тапсырыс беруші: Қазақстан Республикасының Ғылым және жоғары білім министрлігі.
Өтінім беруші: «Қ.И. Сәтбаев атындағы Қазақ ұлттық техникалық зерттеу университеті» КЕАҚ.

Жобаның мақсаты

Бұл зерттеудің негізгі мақсаты - Gemini, Cosmic және Monocle сияқты құралдар және әртүрлі машиналық оқыту әдістерін пайдалана отырып, перифериялық артерия ауруы (ПАА) бар пациенттеріндегі соматикалық мутацияларды анықтау үшін инклюзивті pipeline құру.

  • біржасушалы деректерді өңдеудің қазіргі әдістеріне шолу жасау;
  • қолдағы деректер жиынтығын кеңейту;
  • барлық жиынтықтарға бірлескен алдын ала өңдеу жүргізу;
  • кластерлік талдау орындау;
  • соматикалық мутацияларды және pathway-level өзгерістерді анықтау;
  • деректерді кеңейтуден қорытынды талдауға дейінгі толық pipeline құру;

Күтілетін нәтижелер қатарына Scopus мақалалары, шолу жарияланымы және PAD жағдайында соматикалық мутацияларды іздеуге арналған генетикалық pipeline кіреді.

Ғылыми жетекшінің жарияланымдары

A REVIEW OF TOOLS, METHODOLOGIES, AND TECHNIQUES FOR PROCESSING, PRE-PROCESSING, AND CLUSTERING ANALYSIS OF GENETIC DATA

Журнал: Herald of the Kazakh-British technical university

Күні: 2024-12-22

DOI: 10.55452/1998-6688-2024-21-4-45-57

Авторлар: A. Kunikeyev; A. Yerimbetova; R. Satybaldiyeva

Профильдегі дереккөз: Aidyn D. Kunikeyev

Latest Advances in Endothelial Progenitor Cell-Derived Extracellular Vesicles Translation to the Clinic

Журнал: Frontiers in Cardiovascular Medicine

Күні: 2021-10-04

DOI: 10.3389/fcvm.2021.734562

Профильдегі дереккөз: Aidyn D. Kunikeyev

Зерттеудің қазіргі кезеңіндегі нәтижелер

Жасушалық күйлер мен мутациялық жүктеменің картасы

Жасушалық күйлер мен мутациялық жүктеменің картасы

UMAP-көрінісі жасушалық күйлердің кеңістіктік құрылымын және олардың мутациялық жүктемемен байланысын көрсетті. Бұл блок экспрессия кластерлеуінен биологиялық тұрғыдан түсіндірілетін жасушалық популяцияларға көшуге мүмкіндік береді.

14үлгі ағымдағы талдауға біріктірілді.
20,634белгі сүзгіден өткен кеңістікте пайдаланылды.
0.98ең жоғары balanced accuracy көрсеткіші алынды.

Когорталық сүзгілеуден кейінгі варианттар

Когорталық сүзгілеуден кейінгі варианттар

Когорталық сүзгілеуден кейін де әрі қарайғы талдауға жеткілікті варианттық сигнал сақталғанын көрсетеді.

Модельдердің сапасы

Модельдердің сапасы

Қайталанған кросс-валидация кезінде сызықтық модельдер тұрақты нәтижелер көрсетеді.

Жара шетіне тән enrichment

Жара шетіне тән enrichment

Жара шеті аймағында mutation burden жоғары гендер үшін pathway-level enrichment сигналдары байқалады.

Алдыңғы кезеңмен салыстырғандағы өзгерістер

Егер жобаның ертерек кезеңі single-cell деректерін классикалық өңдеуге және базалық экспрессия талдауына сүйенсе, қазіргі кезең somatic mutation analysis, cell-state interpretation және machine learning байланысын күшейтеді.

Агенттік pipeline есептеу қадамдарын, аралық нәтижелерді бақылауды, кестелер мен суреттерді дайындауды және қорытынды интерпретацияны біртұтас үдеріске біріктіреді.

Научный проект AP22686112

Исследование соматических мутаций по данным одноклеточной РНК с использованием методов машинного обучения у пациентов с заболеванием периферических артерий

Страница объединяет основные сведения о проекте, публикации научного руководителя и результаты текущего этапа исследования. Отдельно показан переход от классического пайплайна к агентному подходу.

ИРН
AP22686112
Период реализации
2024-2026
Статус
Одобрено ННС
27.06.2024 09:48:06
Научный руководитель
Aidyn D. Kunikeyev

О проекте

Заболевание периферических артерий (ЗПА) — это сосудистое заболевание, характеризующееся аномальным сужением или закупоркой артерий, влияющее на приток крови к некоронарным областям, таким как ноги, ступни, руки, мозг и внутренние органы. Считается, что около 202 миллионов человек во всем мире страдают от заболеваний периферических артерий (ЗПА), что составляет примерно 12-14% мирового населения. Частота этого состояния увеличивается с возрастом, поражая примерно 10-25% людей старше 55 лет и достигая 40% среди людей старше 80 лет. Это связано со значительным уровнем заболеваемости, смертности и снижением качества медицинской помощи. Распространенность ЗПА в Казахстане составляет менее 5% от общей численности населения и имеет тенденцию к росту, что указывает на то, что ≈0,9 миллиона взрослых живут с ЗПА. Ампутация является потенциальным последствием, если пациента невозможно вылечить. Соматические клетки постепенно накапливают спонтанные мутации в течение жизни человека. Многофакторная этиология соматических мутаций при ЗПА обусловлена несколькими факторами риска, включая старение, воздействие токсинов окружающей среды, хроническое воспаление, радиацию и окислительный стресс, все из которых могут вызывать повреждение ДНК и приводить к накоплению соматических мутаций.

На раннем этапе проекта использовался классический набор инструментов: общедоступный набор PRJNA736095, сбор FASTQ-файлов, контроль качества, выравнивание с помощью Hisat2, количественная оценка через FeatureCounts и анализ дифференциальной экспрессии через DESeq2 на платформе GalaxyProject.

На текущем этапе эта основа расширена до агентного пайплайна, который объединяет поиск соматических мутаций, pathway analysis, интерпретацию клеточных состояний и методы машинного обучения.

Заказчик: Министерство науки и высшего образования Республики Казахстан.
Заявитель: НАО «Казахский национальный исследовательский технический университет имени К.И. Сатпаева».

Цель проекта

Основная цель этого исследования — создать инклюзивный pipline выявления соматических мутаций у пациентов с заболеваниями периферических артерий (ЗПА) с использованием различных методов машинного обучения и инструментов, таких как Gemini, Cosmic и Monocle.

  • провести обзор существующих методов обработки одноклеточных данных;
  • расширить текущий набор данных;
  • выполнить совместную предварительную обработку всех наборов;
  • провести кластерный анализ;
  • обнаружить соматические мутации и выполнить pathway analysis;
  • построить полный пайплайн от расширения данных до итогового анализа;

Ожидаемые результаты проекта включают публикации уровня Scopus, обзорную статью и генетический пайплайн для поиска соматических мутаций при заболевании периферических артерий.

Публикации научного руководителя

A REVIEW OF TOOLS, METHODOLOGIES, AND TECHNIQUES FOR PROCESSING, PRE-PROCESSING, AND CLUSTERING ANALYSIS OF GENETIC DATA

Журнал: Herald of the Kazakh-British technical university

Дата: 2024-12-22

DOI: 10.55452/1998-6688-2024-21-4-45-57

Авторы: A. Kunikeyev; A. Yerimbetova; R. Satybaldiyeva

Источник в профиле: Aidyn D. Kunikeyev

Latest Advances in Endothelial Progenitor Cell-Derived Extracellular Vesicles Translation to the Clinic

Журнал: Frontiers in Cardiovascular Medicine

Дата: 2021-10-04

DOI: 10.3389/fcvm.2021.734562

Источник в профиле: Aidyn D. Kunikeyev

Результаты текущего этапа исследования

Карта клеточных состояний и мутационной нагрузки

Карта клеточных состояний и мутационной нагрузки

UMAP-представление показывает пространственную структуру клеточных состояний и их связь с мутационной нагрузкой. Этот блок отражает переход от общей кластеризации экспрессии к интерпретируемому анализу клеточных популяций.

14образцов было интегрировано в текущий анализ.
20,634признака использовано в отфильтрованном пространстве признаков.
0.98составило лучшее значение balanced accuracy.

Фильтрация вариантов по когорте

Фильтрация вариантов по когорте

После когортной фильтрации сохраняется значимый вариантный сигнал для дальнейшего анализа.

Качество моделей

Качество моделей

Линейные модели демонстрируют устойчивое качество при повторной перекрестной проверке.

Обогащение по краю раны

Обогащение по краю раны

Для области края раны выявлены pathway-level сигналы обогащения у генов с повышенной мутационной нагрузкой.

Что изменилось по сравнению с ранним этапом

Если ранний этап проекта опирался на классический набор инструментов для обработки single-cell данных и базового анализа экспрессии, то текущий этап уже ориентирован на связку somatic mutation analysis, cell-state interpretation и machine learning.

Агентный пайплайн связывает вычислительные этапы, контроль промежуточных результатов, подготовку таблиц и фигур, а также итоговую интерпретацию в едином процессе.

Research Project AP22686112

Study of somatic mutations from single-cell RNA data using machine learning methods in patients with peripheral artery disease

This page combines the core project information, the supervisor's publications, and the results obtained at the current stage of the study. It also shows the transition from a classical pipeline to an agentic workflow.

IRN
AP22686112
Implementation Period
2024-2026
Status
Approved by the National Scientific Council
2024-06-27 09:48:06
Scientific Supervisor
Aidyn D. Kunikeyev

About the Project

Peripheral Arterial Disease (PAD) is a vascular condition marked by abnormal narrowing or blockage of arteries, affecting blood flow to non-coronary areas such as the legs, feet, arms, brain, and visceral organs. Approximately 202 million individuals worldwide are believed to be affected by peripheral artery disease (PAD), which accounts for roughly 12-14% of the global population. The frequency of this condition rises with advancing age, impacting approximately 10-25% of individuals aged over 55, and reaching 40% among those aged over 80. It is linked to notable levels of morbidity, mortality, and a reduction in the quality of life. The prevalence of PAD in Kazakhstan is less than 5% of the total population and is trending upward, indicating that ≈0.9 million adults are living with PAD. Amputation is a potential consequence if a patient cannot be healed. Somatic cells gradually accumulate spontaneous mutations over the course of an individual's life. The multifactorial etiology of somatic mutations in PADs is driven by several risk factors, including aging, exposure to environmental toxins, chronic inflammation, radiation, and oxidative stress, all of which can induce DNA damage and lead to the accumulation of somatic mutations.

At the earlier stage, the project relied on a classical processing stack: the public PRJNA736095 dataset, FASTQ collection, quality control, alignment with Hisat2, quantification with FeatureCounts, and differential expression analysis with DESeq2 on GalaxyProject.

The current stage extends this foundation into an agentic pipeline that integrates somatic mutation discovery, pathway analysis, cell-state interpretation, and machine learning.

Customer: Ministry of Science and Higher Education of the Republic of Kazakhstan.
Applicant: NJSC K.I. Satbayev Kazakh National Research Technical University.

Project Goal

This study's main goal is to create an inclusive pipeline for identifying somatic mutations in peripheral arterial disease (PAD) patients, making use of diverse machine learning techniques and tools like Gemini, Cosmic, and Monocle

  • review current methods for processing single-cell data;
  • expand the available dataset;
  • perform joint preprocessing across all datasets;
  • carry out cluster analysis;
  • detect somatic mutations and perform pathway analysis;
  • build a full pipeline from data expansion to final interpretation;

Expected project outputs include Scopus-indexed articles, a review paper, and a genetic pipeline for detecting somatic mutations in peripheral artery disease.

Scientific Supervisor Publications

A REVIEW OF TOOLS, METHODOLOGIES, AND TECHNIQUES FOR PROCESSING, PRE-PROCESSING, AND CLUSTERING ANALYSIS OF GENETIC DATA

Journal: Herald of the Kazakh-British technical university

Date: 2024-12-22

DOI: 10.55452/1998-6688-2024-21-4-45-57

Authors: A. Kunikeyev; A. Yerimbetova; R. Satybaldiyeva

Profile source: Aidyn D. Kunikeyev

Latest Advances in Endothelial Progenitor Cell-Derived Extracellular Vesicles Translation to the Clinic

Journal: Frontiers in Cardiovascular Medicine

Date: 2021-10-04

DOI: 10.3389/fcvm.2021.734562

Profile source: Aidyn D. Kunikeyev

Results of the Current Study Stage

Map of Cell States and Mutational Burden

Map of Cell States and Mutational Burden

The UMAP view highlights the spatial organization of cell states and their relationship to mutational burden. This block reflects the transition from generic expression clustering to interpretable cell-population analysis.

14samples were integrated into the current analysis.
20,634features were retained in the filtered feature space.
0.98was the best balanced accuracy achieved.

Cohort-Level Variant Filtering

Cohort-Level Variant Filtering

The chart shows that a substantial variant signal remains after cohort-level filtering.

Model Performance

Model Performance

Linear models show stable performance under repeated cross-validation.

Wound-Edge Enrichment

Wound-Edge Enrichment

Pathway-level enrichment signals were detected for genes with higher mutational burden at the wound edge.

What Changed Compared with the Earlier Stage

While the earlier stage focused on a classical toolkit for single-cell processing and baseline expression analysis, the current stage is centered on the connection between somatic mutation analysis, cell-state interpretation, and machine learning.

The agentic pipeline links computational stages, intermediate-result control, table and figure preparation, and final interpretation into a single workflow.