Тех-Детали: minted

Показаны сообщения с ярлыком minted. Показать все сообщения

суббота, 26 октября 2013 г.

pandoc: экспорт блога в tex

Однажды, примерно полгода назад, я решил перевести статьи из этого блога в книжный формат. Для этого, в первую очередь, мне пришлось выбрать, в какой формат переводить исходные HTML страницы блога, а затем изучить доступные в сети программы, способные хорошо справиться с этой задачей. Собственно, с выбором формата не было никаких проблем: трудно предложить что-либо такое, что превосходило бы по возможностям формат PDF. Наиболее перспективной программой оказалась wkhtmltopdf (при этом, чтобы добиться достойного результата, мне пришлось скачать уже собранную версию программы, включающую важные патчи для Qt). Затем я создал в своей домашней директории новую директорию blog/, а внутри нее две поддиректории articles/ и images/. В первую поддиректорию я поместил все исходные HTML страницы блога, а во вторую - все изображения с этих страниц. Далее я разными автоматическими и полуавтоматическими способами добавил HTML хедеры и футеры в HTML страницы и исправил в них атрибуты src тэгов img, дабы они правильно указывали на изображения в директории articles/. После этого я написал простейший скрипт makepdf.sh, который генерировал PDF документ из этих страниц.

#!/bin/bash

BLOGNAME=Тех-детали
RESULT=blog.pdf
SRC=articles

WKHTMLTOPDF=wkhtmltopdf-amd64
FH_OPTS="-B 27 -T 24 --footer-line --header-line --footer-spacing 10 
 --header-spacing 10 --header-left $BLOGNAME --header-right [title]
 --footer-right [page]"
EXTRA_OPTS="--image-quality 100"
TOC_OPTS="toc --xsl-style-sheet wkhtmltopdf-toc.xsl"

OBJECTS="$SRC/boostspirit.html $SRC/c.html $SRC/cint.html $SRC/blog-post.html
 $SRC/subversion.html $SRC/cd-flac-mp3.html $SRC/boostspirit2.html
 $SRC/haskell.html $SRC/usb.html $SRC/subversion2.html
 $SRC/geant4-94-chargeexchangemc-aka-cexmc.html $SRC/f-spot.html $SRC/c2.html
 $SRC/9.html $SRC/vim-ctags-perl.html $SRC/tcl.html $SRC/haskell2.html
 $SRC/c-haskell.html $SRC/fedora-15-wicd.html $SRC/cern-root.html $SRC/vim.html
 $SRC/vim-2.html $SRC/firefox-6-thunderbird-6-fedora-14.html $SRC/ctags-c-c.html
 $SRC/make.html $SRC/texlive.html $SRC/ngrep.html $SRC/nginx.html
 $SRC/vim-taghighlight-tagbar.html $SRC/geant4-95.html $SRC/vim-powerline.html
 $SRC/nginx-i.html $SRC/nginx-ii.html $SRC/vim2.html
 $SRC/mate-compiz-fedora-17.html $SRC/nginx-myutil.html $SRC/blog-post2.html
 $SRC/shell-powerline.html $SRC/vim-vimwiki.html $SRC/diff.html
 $SRC/unicode-linux-fedora-17.html $SRC/powerline-linux.html $SRC/linux.html
 $SRC/vim-tex-minted.html $SRC/pdf-odp-ppt-latex.html
 $SRC/vim-xkb-switch-libcall.html $SRC/a-perl-script-for-gathering-blogger.html
 $SRC/fedora-17-fedora-18.html $SRC/vim3.html $SRC/c11-rvalue.html
 $SRC/tsung.html $SRC/c3.html $SRC/blog-post3.html"

$WKHTMLTOPDF $FH_OPTS $EXTRA_OPTS $TOC_OPTS $OBJECTS $RESULT

Я привожу его здесь только для того, чтобы показать, насколько гибок wkhtmltopdf: его опции перечислены в переменных FH_OPTS, EXTRA_OPTS и TOC_OPTS. Переменная OBJECTS представляет собой список всех файлов из директории articles/.

Результат оказался очень хорошим, предельно близким к оригиналу! После этого я на некоторое время успокоился, но затем меня снова начали терзать сомнения. В самом деле, несмотря на огромное количество опций wkhtmltopdf, отвечающих за внешний вид окончательного PDF документа, на выходе мы имеем примерно то же самое, что было в самом начале - груду неструктурированного мусора, которым невозможно управлять (редактировать, менять внешний вид структурных элементов и т.п.). Нужен другой формат, например tex.

Исследования показали, что есть такая программа pandoc, которая, судя по ее описанию, способна преобразовывать огромное количество форматов из одного в другой. В частности, она умеет выполнять преобразование из HTML в формат tex - то, что нужно! Установив pandoc, и опробовав его на одном из файлов в директории articles/, я увидел, что подсветка синтаксиса исходных кодов пропала. Я рассказывал, как я вставляю подсвеченный код в блог. По сути, он заворачивается внутрь тэгов <pre><tt> .. </tt></pre>, а конкретные цвета подставляет плагин TOhtml редактора vim на основании используемых для данного типа файла синтаксических правил. Кроме того, конвертор TOhtml заменяет пробелы на символы  . Выяснилось, что pandoc не умеет подсвечивать составленные таким образом блоки HTML. Однако, он таки может подсвечивать исходный код, если внутри тэгов <pre> .. </pre> удалить все HTML тэги и символы неразрывного пробела, оставив голый исходный код, и снабдить тэг <pre> атрибутом class="тип_файла" или class="brush: тип_файла", где тип_файла - это синтаксический тип файла, например, cpp для C++. Просмотреть список поддерживаемых pandoc синтаксических типов файлов можно, введя команду

pandoc --version

Кроме того, вставленные когда-то хедеры и футеры HTML, оказались не нужны. Да и ссылки на изображения не нужны тоже. Поэтому я написал небольшой quick and dirty скрипт process_html.sh, который автоматизирует преобразование содержимого тэгов <pre>, удаляет хедэры и футеры HTML и ссылки на изображения.

#!/bin/bash 

CLASS=

while getopts :l: opt; do
  case $opt in
    l)  CLASS=$OPTARG ;;
    \?) echo "Invalid option: -$OPTARG" ;;
    :)  echo "Option -$OPTARG requires an argument."; exit 1 ;;
  esac
done

shift $((OPTIND-1))

sed -e 's/\(^.*\)\?\(<\/\?pre>\)/\1\n\2\n/' "$@" |
sed -e 's/.*<\/\?html>\|<\/\?body>.*//; /<head>/,/<\/head>/d' \
    -e 's/<a href.*\+>\(<img[^>]\+src="\).*\(\/images[^"]\+"[^>]\+>\)/\1..\2/g' \
    -e '/^<tt>/,/^<\/tt>/s/<[^>]\+>//g; /^<pre>$/,/^<\/pre>$/s/&nbsp;/ /g' \
    -e "s/^<pre>$/<pre class=\"$CLASS\">/"

Я поместил этот скрипт в новую поддиректорию tex/, соседнюю с articles/ и images/. Единственная опция -l указывает значение для атрибута class тэга <pre>, то есть синтаксический тип исходных кодов в исходной странице HTML. Очевидно, на одной странице HTML могут находиться исходные коды разных синтаксических типов (например, на языках fortran и C++), поэтому этот скрипт нельзя рассматривать как полностью автоматический: ручная правка полученного результата может оказаться необходимой. Ну а в простейшем случае, достаточно выполнить

./process_html.sh -lcpp ../articles/c.html | pandoc --normalize -f html -o c.tex

чтобы из файла c.html получить файл c.tex. Файл c.tex не является законченным (standalone) документом tex. Его нужно вставить в шаблон. Я использовал следующий шаблон blog.tex:

\documentclass[12pt]{article}
% adjust page geometry
\usepackage[a4paper,vmargin={2cm,2cm},hmargin={2cm,2cm}]{geometry}

\usepackage[T1]{fontenc}
\usepackage{lmodern}
\usepackage{amssymb,amsmath}
\usepackage{ifxetex,ifluatex}
\usepackage{fixltx2e} % provides \textsubscript
% use upquote if available, for straight quotes in verbatim environments
\IfFileExists{upquote.sty}{\usepackage{upquote}}{}
\ifnum 0\ifxetex 1\fi\ifluatex 1\fi=0 % if pdftex
  \usepackage[utf8]{inputenc}
\else % if luatex or xelatex
  \ifxetex
    \usepackage{mathspec}
    \usepackage{xltxtra,xunicode}
    \usepackage{fontspec} % enables loading of OpenType fonts
    \usepackage{polyglossia} % support for languages

    % fonts:
    \defaultfontfeatures{Scale=MatchLowercase,Mapping=tex-text}
    \setmainfont{DejaVu Sans}
    \setsansfont{DejaVu Sans}
    \setmonofont{DejaVu Sans Mono}

    % Russian/English document:
    \usepackage{xecyr}
  \else
    \usepackage{fontspec}
  \fi
  \defaultfontfeatures{Mapping=tex-text,Scale=MatchLowercase}
  \newcommand{\euro}{€}
\fi
% use microtype if available
\IfFileExists{microtype.sty}{\usepackage{microtype}}{}
\usepackage{color}
\usepackage{xcolor}
\usepackage{fancyvrb}
\newcommand{\VerbBar}{|}
\newcommand{\VERB}{\Verb[commandchars=\\\{\}]}
\DefineVerbatimEnvironment{Highlighting}{Verbatim}{commandchars=\\\{\}}
% Add ',fontsize=\small' for more characters per line
\usepackage{framed}
\definecolor{shadecolor}{rgb}{1.0, 1.0, 0.9}
\newenvironment{Shaded}{
  \begin{shaded}
    \scriptsize
}{\end{shaded}}
\newcommand{\KeywordTok}[1]{\textcolor[rgb]{0.00,0.44,0.13}{\textbf{{#1}}}}
\newcommand{\DataTypeTok}[1]{\textcolor[rgb]{0.56,0.13,0.00}{{#1}}}
\newcommand{\DecValTok}[1]{\textcolor[rgb]{0.25,0.63,0.44}{{#1}}}
\newcommand{\BaseNTok}[1]{\textcolor[rgb]{0.25,0.63,0.44}{{#1}}}
\newcommand{\FloatTok}[1]{\textcolor[rgb]{0.25,0.63,0.44}{{#1}}}
\newcommand{\CharTok}[1]{\textcolor[rgb]{0.25,0.44,0.63}{{#1}}}
\newcommand{\StringTok}[1]{\textcolor[rgb]{0.25,0.44,0.63}{{#1}}}
\newcommand{\CommentTok}[1]{\textcolor[rgb]{0.38,0.63,0.69}{\textit{{#1}}}}
\newcommand{\OtherTok}[1]{\textcolor[rgb]{0.00,0.44,0.13}{{#1}}}
\newcommand{\AlertTok}[1]{\textcolor[rgb]{1.00,0.00,0.00}{\textbf{{#1}}}}
\newcommand{\FunctionTok}[1]{\textcolor[rgb]{0.02,0.16,0.49}{{#1}}}
\newcommand{\RegionMarkerTok}[1]{{#1}}
\newcommand{\ErrorTok}[1]{\textcolor[rgb]{1.00,0.00,0.00}{\textbf{{#1}}}}
\newcommand{\NormalTok}[1]{{#1}}
\usepackage{graphicx}
% Redefine \includegraphics so that, unless explicit options are
% given, the image width will not exceed the width of the page.
% Images get their normal width if they fit onto the page, but
% are scaled down if they would overflow the margins.
\makeatletter
\def\ScaleIfNeeded{%
  \ifdim\Gin@nat@width>\linewidth
    \linewidth
  \else
    \Gin@nat@width
  \fi
}
\makeatother
\let\Oldincludegraphics\includegraphics
{%
 \catcode`\@=11\relax%
 \gdef\includegraphics{\@ifnextchar[{\Oldincludegraphics}{\Oldincludegraphics[width=\ScaleIfNeeded]}}%
}%
\ifxetex
  \usepackage[setpagesize=false, % page size defined by xetex
              unicode=false, % unicode breaks when used with xetex
              xetex]{hyperref}
\else
  \usepackage[unicode=true]{hyperref}
\fi
\definecolor{linkcolor}{HTML}{AF8787}
\hypersetup{breaklinks=true,
            bookmarks=true,
            pdfauthor={},
            pdftitle={},
            colorlinks=true,
            citecolor=blue,
            urlcolor=blue,
            linkcolor=linkcolor,
            pdfborder={0 0 0}}
\urlstyle{same}  % don't use monospace font for urls
\setlength{\parindent}{0pt}
\setlength{\parskip}{6pt plus 2pt minus 1pt}
\setlength{\emergencystretch}{3em}  % prevent overfull lines
\setcounter{secnumdepth}{0}
\ifxetex
  \newfontfamily\cyrillicfont{DejaVu Sans}
  \setmainlanguage{russian} 
  \setotherlanguage[variant=american]{english}
\fi

%\usepackage[raggedright]{titlesec}

\author{}
\date{}

\begin{document}

\tableofcontents

\include{boostspirit}
\include{c}
\include{cint}
\include{blog-post}
\include{subversion}
\include{cd-flac-mp3}
\include{boostspirit2}
\include{9}
\include{tsung}

\end{document}

Здесь много разных сложных объявлений до начала собственно документа. Откуда я их взял? Исходный шаблон можно получить, просто запустив pandoc с опцией -s (или --standalone) на каком-нибудь HTML файле, в котором присутствует исходный код с тэгом <pre> и атрибутом class (без этого не сгенерируется объявление среды Shaded). Конечно же, я изменил получившийся таким способом шаблон, во-первых, удалив содержимое между тэгами \begin{document} и \end{document} и заменив его на объявление \tableofcontents и список файлов в формате tex для вставки в документ (здесь их пока только девять: восемь самых старых постов и один из новых), а во-вторых, добавив определения для генерации кириллических шрифтов xetex из шрифтов DejaVu. Кроме того, я изменил геометрию страницы (второе объявление в скрипте), определил цвет shadecolor, цвет linkcolor (для элементов оглавления) и действия внутри среды Shaded (использовать блок shaded и меньший размер шрифта scriptsize).

Я решил, что исходные коды будут помещены на светлом бежевом фоне shadecolor, а работа внутри интерактивных пользовательских оболочек отмечена темной полосой слева. Во втором случае, из предварительно обработанного программой process_html.sh файла в формате HTML следует в соответствующих местах удалить из тэга <pre> атрибут class, а в файле в формате tex, созданном pandoc, обрамить соответствующие места (они будут ограничиваться тэгами \begin{verbatim} и \end{verbatim}) тэгами

\begin{leftbar}
\scriptsize

...

\end{leftbar}

После описанных мероприятий со всеми девятью файлами и запуска

latexmk -xelatex blog.tex

я получил вот такой файл blog.pdf. Результат хороший (при том, что Google испортил цвета шрифтов и ухудшил разрешение картинок при вставке в Google Docs, в оригинальном документе PDF все выглядит очень прилично). Даже при таком малоавтоматизированном процессе это было довольно-таки быстро.

Update. Продолжив добавлять отдельные страницы в PDF документ, столкнулся с интересной проблемой. В некоторых моих статьях есть примеры исходного кода на VimL (если кто не знает, так называется скриптовый язык для vim). Так вот, pandoc не умеет подсвечивать VimL. Оказывается, для подсветки языков pandoc использует haskell библиотеку highlighting-kate, которая, как не трудно догадаться, использует определения синтаксиса языков из KDE-шного редактора Kate. Kate поддерживает синтаксис около 200 языков, но не поддерживает VimL! Зафайлил им баг по этому поводу.

Ситуация, однако, оказалась не безвыходной. Я уже писал про латеховский пакет minted, который использует питоновскую библиотеку pygments для подсветки исходного кода. В общем, я решил в случае с исходным кодом на VimL использовать minted. Для этого в файл blog.tex добавляем строку

\usepackage{minted}

, а в файле, обработанном process_html.sh, удаляем атрибут class из соответствующего тэга <pre>. Передаем, как и раньше, этот файл на обработку pandoc, открываем полученный файл tex в редакторе, и заменяем соответствующие открывающие и закрывающие тэги \begin{verbatim} и \end{verbatim} на

\begin{Shaded}
\begin{minted}{vim}

...

\end{minted}
\end{Shaded}

Пакет minted требует, чтобы компилятор был запущен с опцией --shell-escape, поэтому собираем blog.pdf командой

latexmk -pdf -pdflatex="xelatex --shell-escape %O %S" blog.tex

В качестве бонуса имеем полное совпадение стиля подсветки исходного кода VimL со стилем подсветки других синтаксических типов. Это потому, что pandoc для рендеринга подсветки по умолчанию использует стиль той же pygments! (Опция pandoc, отвечающая за стиль подсветки, --highlight-style, может принимать и другие значения, но по умолчанию она равна pygments).

четверг, 13 декабря 2012 г.

Создание качественных PDF / ODP / PPT презентаций в latex

Для чего мне понадобилась корректная подсветка исходного кода Tex / minted в vim, о способе достижения которой я рассказывал здесь? Ну, например, для того, чтобы, как на то намекает название статьи, с особым комфортом и шиком генерировать качественные технические презентации прямо из vim! Например, вот такую:

Исходный код этой презентации на tex:

\documentclass{beamer}

\usepackage{lmodern}
\usepackage{minted}

\usetheme{CambridgeUS}
\usecolortheme{seahorse}

\definecolor{scriptbg}{rgb}{0.95,0.95,0.95}

\logo{\includegraphics[height=0.5cm]{MyCompanyLogo.png}}
\title {My Cool Presentation}
\author{IT Team}
\date{December 12, 2012}

\begin{document}
\maketitle

\begin{frame}
\frametitle{Our network}
\framesubtitle{(autogenerated from a dia file)}
\begin{center}
\includegraphics[width=0.8\paperwidth]{my_dia.mps}
\end{center}
\end{frame}

\begin{frame}[fragile]
\frametitle{Code samples from different languages}
\framesubtitle{(highlighted by Python Pygments via minted)}
\textbf{C++}
\begin{minted}[fontsize=\tiny,bgcolor=scriptbg,gobble=2]{c++}
  #include <iostream>
  int main( void )
  {
      std::cout << "Hello world" << std::endl;
      return 0;
  }
\end{minted}

\vspace{0.5cm}
\textbf{Python}
\begin{minted}[fontsize=\tiny,bgcolor=scriptbg,gobble=2]{python}
  #!/usr/bin/python
  print "Hello, World!"
\end{minted}

\vspace{0.5cm}
\textbf{Bash}
\begin{minted}[fontsize=\tiny,bgcolor=scriptbg,gobble=2]{sh}
  #!/usr/bin/bash
  echo Hello, World!
\end{minted}
\end{frame}

\end{document}

Кроме текста для построения презентации были использованы изображение-логотип компании MyCompanyLogo.png (надпись My Company Logo c красным кругом в правом нижнем углу каждого слайда) и файл в формате dia, из которого было автоматически сгенерировано векторное изображение my_dia.mps на втором слайде.

Кто же в ответе за всю эту красоту? Конечно же пакет beamer из репозитория tex: именно он создает структуру презентации и раскрашивает слайды в соответствии с темами, заданными командами \usetheme и \usecolortheme. Кстати, стандартные темы можно просмотреть на сайте Beamer Theme Matrix (но будьте осторожны - грузится он долго).

Пакет beamer создает прекрасные качественные презентации в формате PDF с перекрестными ссылками и панелью управления, расположенной внизу каждого слайда. А что делать, если нам нужен формат презентаций ODP OpenOffice / LibreOffice? Для этого нам нужно найти какой-нибудь качественный конвертор из PDF в ODP. В качестве движка конвертора прекрасно подходит программа pdftocairo из пакета Poppler (в моей Fedora 17 она входит в пакет rpm poppler-utils). Программа конвертора должна качественно, быстро и прозрачно преобразовать исходную презентацию в формате PDF в отдельные файлы PNG, а затем скомпоновать их в презентацию ODP.

На роль подобного менеджера подходит скрипт pdf2odp из пакета latexslides, однако он использует в качестве движка не Poppler, а Ghostscript, поэтому делает это, на мой взгляд, медленно и некачественно, кроме того, в нем нельзя задать желаемое разрешение PNG, которое всегда равно 300. Поэтому я написал патч для pdf2odp относительно текущей версии в репозитории, в котором реализованы опции по выбору движка конвертора (Ghostscript или pdftocairo из Poppler) и выходного разрешения картинок PNG. Вот этот патч:

--- bin/pdf2odp 2012-12-13 00:25:08.072750679 +0400
+++ bin/pdf2odp.new 2012-12-13 00:22:48.384713551 +0400
@@ -1,15 +1,48 @@
-#!/usr/bin/env python
+#!/usr/bin/python
+
+import sys, subprocess, os, glob, getopt
+
+def usage():
+    usage = """
+    Usage: %s [-x|--engine=] [-s|--scale=] pdffile [outfile]
+      -h --help        Prints help
+      -x --engine      Converter engine (gs or pdftocairo), default gs
+      -s --scale       Scale value, default 300
+    """
+    print usage %(os.path.basename(sys.argv[0]))
+
+# converter engine: gs or pdftocairo
+engine = 'gs'
+scale = 300
+pdffile = ''
+outfile = ''
+
+options, remainder = getopt.getopt(sys.argv[1:], 'hx:s:',
+                                   ['help','engine=', 'scale='])
+
+for opt, arg in options:
+    if opt in ('-x', '--engine'):
+        engine = arg
+    elif opt in ('-s', '--scale'):
+        scale = arg
+    elif opt in ('-h', '--help'):
+        usage()
+        sys.exit()
+
+if len(remainder) > 0:
+    pdffile = remainder[0]
+if len(remainder) > 1:
+    outfile = remainder[1]
 
-import sys, subprocess, os, glob
 # Check for odfpy and file argument
 try:
     from odf.opendocument import OpenDocumentPresentation
-    filename = sys.argv[1]
+    filename = pdffile
 except ImportError:
     print "You need odfpy, exiting."
     sys.exit(1)
 except IndexError:
-    print "Usage: %s pdfile [outfile]" %sys.argv[0]
+    usage()
     sys.exit(2)
 
 from odf.style import Style, MasterPage, PageLayout, PageLayoutProperties, \
@@ -27,21 +60,32 @@
     print "%s only accepts pdf files, exiting." %sys.argv[0]
     sys.exit(4)
 
-# Check for gs
+# Check for converter engine
 try:
-    subprocess.call(['gs', '-v'], stdout=subprocess.PIPE)
+    if engine == 'pdftocairo':
+        subprocess.call(['pdftocairo', '-v'], stdout=subprocess.PIPE)
+    else:
+        subprocess.call(['gs', '-v'], stdout=subprocess.PIPE)
 except OSError:
-    print "You need Ghostscript, exiting."
+    if engine == 'pdftocairo':
+        print "You need Poppler utils, exiting."
+    else:
+        print "You need Ghostscript, exiting."
     sys.exit(5)
 
-gs_args = ['gs', '-dNOPAUSE', '-dSAFER', '-dBATCH', '-sDEVICE=pngalpha',
-           '-r300', '-sOutputFile=tmp_%s_%%03d.png' %(file), filename]
+if engine == 'pdftocairo':
+    engine_args = ['pdftocairo', '-png', '-scale-to', '%s' %(scale), filename,
+                   'tmp_%s_' %(file)]
+else:
+    engine_args = ['gs', '-dNOPAUSE', '-dSAFER', '-dBATCH',
+                   '-sDEVICE=pngalpha', '-r%s' %(scale),
+                   '-sOutputFile=tmp_%s_%%03d.png' %(file), filename]
            
-# Try to run gs
-print 'Converting %s to images using gs\n' %filename
-result = subprocess.Popen(gs_args)
+# Try to run converter engine
+print 'Converting %s to images using %s\n' %(filename, engine)
+result = subprocess.Popen(engine_args)
 if result.wait():
-    print '\nRunning gs failed with the error above, exiting.'
+    print '\nRunning %s failed with the error above, exiting.' %engine
     sys.exit(6)
 
 print "\nDone..."
@@ -90,7 +134,7 @@
     imageframe.addElement(Image(href=href))
 
 # Save file
-file = os.path.splitext(sys.argv[2])[0] if len(sys.argv) > 2 else file
+file = os.path.splitext(outfile)[0] if len(outfile) > 0 else file
 doc.save(file, True)
 print "Presentation saved as %s.odp" %file

Для преобразования картинок PNG в ODP pdf2odp использует пакет odfpy, так что его тоже необходимо установить.

Преобразовать презентацию из ODP в PPT нам поможет OpenOffice или LibreOffice. И у того и у другого есть пакетный режим конвертации, который, как это ни странно, не работает, если запущен хотя бы один графический инстанс офисного приложения (sic!), поэтому команда make ppt, о которой речь пойдет ниже, не сделает ничего и завершится при этом без ошибки, если у вас открыто какое-либо офисное приложение из указанных пакетов!

Итак, речь зашла о make. Извольте, это Makefile, который делает все:

# Produce main.pdf in output directory specified in latexmkrc

GREP                =   grep
SED                 =   sed
DIA                 =   dia
LATEXMK             =   latexmk
MPOST               =   mpost
PDF2ODP             =   pdf2odp
OFFICE              =   libreoffice

LATEXMKRC           =   ./latexmkrc
PDF_MODE_PTN        =   ^\s*$$pdf_mode\s*=\s*
OUT_EXT             =   $(shell case \
                        `$(GREP) '$(PDF_MODE_PTN)' $(LATEXMKRC) 2>/dev/null | \
                        $(SED) 's/$(PDF_MODE_PTN)\([0-3]\).*/\1/'` \
                        in ([1-3]) echo pdf ;; (*) echo dvi ;; esac)
OUT_DIR_PTN         =   ^\s*$$out_dir\s*=\s*
OUT_DIR             =   $(shell \
                        $(GREP) '$(OUT_DIR_PTN)' $(LATEXMKRC) 2>/dev/null | \
                        $(SED) 's/$(OUT_DIR_PTN)["\x27]\(.*\)["\x27].*/\1/')

ifeq ($(strip $(OUT_DIR)),)
    OUT_DIR         =   .
endif

MAIN                =   main
TARGET              =   $(OUT_DIR)/$(MAIN).$(OUT_EXT)
ODP                 =   $(OUT_DIR)/$(MAIN).odp
PPT                 =   $(OUT_DIR)/$(MAIN).ppt

TEX_SOURCES         =   $(wildcard *.tex)
DIA_SOURCES         =   $(wildcard *.dia)
EPS_IMAGES          =   $(wildcard *.eps)
DIA_MP_SOURCES      =   $(DIA_SOURCES:.dia=.mp)
DIA_MPS_IMAGES      =   $(DIA_SOURCES:.dia=.mps)

DIA_MP_LOGS         =   $(DIA_SOURCES:.dia=.log)
DIA_MPX_FILES       =   $(DIA_SOURCES:.dia=.mpx)
DIA_MP_TRANS_FILES  =   $(DIA_MP_LOGS) $(DIA_MPX_FILES)
DIA_INTERMEDIATES   =   $(DIA_MP_SOURCES) $(DIA_MP_TRANS_FILES)
DIA_ALL_PRODUCTS    =   $(DIA_INTERMEDIATES) $(DIA_MPS_IMAGES)

MAIN_BBL            =   $(OUT_DIR)/$(MAIN).bbl


.PHONY: all clean clean-all odp ppt

.SECONDARY: $(DIA_MP_SOURCES)

all: $(TARGET)

odp: $(ODP)

ppt: $(PPT)

%.mp: %.dia
    $(DIA) -e $@ $<

%.mps: %.mp
    $(MPOST) -s 'outputtemplate="%j.mps"' $<

$(TARGET): $(EPS_IMAGES) $(DIA_MPS_IMAGES) $(TEX_SOURCES)
    $(LATEXMK) $(MAIN)

$(ODP): $(MAIN).pdf
    $(PDF2ODP) -x pdftocairo -s 1600 $(MAIN).pdf

$(PPT): $(ODP)
    $(OFFICE) --headless --convert-to ppt --outdir $(OUT_DIR) $(ODP)

clean:
    $(LATEXMK) -c
    rm -f $(DIA_INTERMEDIATES)

clean-all:
    $(LATEXMK) -C
    rm -f *-eps-converted-to.pdf $(DIA_ALL_PRODUCTS) $(MAIN_BBL) $(ODP) $(PPT)

К нему прилагается файл latexmkrc (он должен находится в той же директории, где находится Makefile, т.е. в нашей рабочей директории), который необходим для правильной работы latexmk:

$pdf_mode = 1;                                  # use pdflatex
$pdflatex = 'pdflatex --shell-escape %O %S'     # needed by minted

Команда make без параметров строит презентацию в формате PDF, make odp - презентацию в формате ODP, а make ppt - презентацию в формате PPT.

В данном Makefile определены абстрактные правила преобразования форматов, поэтому его можно использовать в разных проектах, связанных с tex. Главная переменная, которую, как предполагается, должен определять пользователь, это MAIN - она определяет имена исходного файла tex и сгнерированных файлов презентаций. В нашем примере предполагается, что исходный файл tex называется main.tex и, соответственно, сгенерированные файлы презентаций будут иметь имена main.pdf, main.odp и main.ppt.

среда, 12 декабря 2012 г.

vim и tex: подсветка внешнего кода minted

Текущая ситуация с подсветкой кода minted в исходниках tex в vim оставляет желать лучшего. Я не стану с уверенностью утверждать, что она так же плоха в различных плагинах tex в vim: я ими не пользуюсь по причине излишней тяжеловесности. Но стандартный синтаксический файл tex.vim не умеет работать с подсветкой minted. Вот вам пример:

\documentclass{article}

\usepackage{minted}

\begin{document}

Here is a \textbf{C++} Hello World example:

\begin{minted}[fontsize=\tiny,linenos=false,gobble=2]{c++}
  #include <iostream>
  int main( void )
  {
      std::cout << "Hello world" << std::endl;
      return 0;
  }
\end{minted}

Here is a \textbf{Python} Hello World example:

\begin{minted}[fontsize=\tiny,linenos=false,gobble=2]{python}
  #!/usr/bin/python
  print "Hello, World!"
\end{minted}

Here is a \textbf{Unknown} Hello World example:

\begin{minted}[fontsize=\tiny,linenos=false,gobble=2]{unknown}
  $my_directive <- { p : 10 }; { p : 20 }
  end $my_directive
\end{minted}

Bye.

\end{document}

Видите, гипотетический язык Unknown уже подсвечивается странно, а сейчас мы вставим киллер-код на sh, который полностью уничтожит синтаксис tex:

\documentclass{article}

\usepackage{minted}

\begin{document}

Here is a highlight killer:

\begin{minted}[fontsize=\tiny,linenos=false,gobble=2]{sh}
  #!/usr/bin/sh
  a=$HOME; hello_world="Hello world"
\end{minted}

Here is a \textbf{C++} Hello World example:

\begin{minted}[fontsize=\tiny,linenos=false,gobble=2]{c++}
  #include <iostream>
  int main( void )
  {
      std::cout << "Hello world" << std::endl;
      return 0;
  }
\end{minted}

Here is a \textbf{Python} Hello World example:

\begin{minted}[fontsize=\tiny,linenos=false,gobble=2]{python}
  #!/usr/bin/python
  print "Hello, World!"
\end{minted}

Here is a \textbf{Unknown} Hello World example:

\begin{minted}[fontsize=\tiny,linenos=false,gobble=2]{unknown}
  $my_directive <- { p : 10 }; { p : 20 }
  end $my_directive
\end{minted}

Bye.

\end{document}

Это катастрофа! Я хочу, чтобы это выглядело так:

\documentclass{article}

\usepackage{minted}

\begin{document}

Here is a highlight killer:

\begin{minted}[fontsize=\tiny,linenos=false,gobble=2]{sh}
  #!/usr/bin/sh
  a=$HOME; hello_world="Hello world"
\end{minted}

Here is a \textbf{C++} Hello World example:

\begin{minted}[fontsize=\tiny,linenos=false,gobble=2]{c++}
  #include <iostream>
  int main( void )
  {
      std::cout << "Hello world" << std::endl;
      return 0;
  }
\end{minted}

Here is a \textbf{Python} Hello World example:

\begin{minted}[fontsize=\tiny,linenos=false,gobble=2]{python}
  #!/usr/bin/python
  print "Hello, World!"
\end{minted}

Here is a \textbf{Unknown} Hello World example:

\begin{minted}[fontsize=\tiny,linenos=false,gobble=2]{unknown}
  $my_directive <- { p : 10 }; { p : 20 }
  end $my_directive
\end{minted}

Bye.

\end{document}

Участок с sh подсвечен синтаксисом sh, с C++ - синтаксисом C++, с Python - синтаксисом Python, а нечто непонятное Unknown - синтаксисом texZone из файла syntax/tex.vim. Язык программирования - параметр minted в фигурных скобках - подсвечен отдельно, в данном случае цветом цветовой группы Special.

Теперь о том, как этого добиться. Поскольку плагин Vimwiki уже умеет загружать синтаксическую подсветку для разных языков программирования (об этой возможности Vimwiki я рассказывал здесь), то пусть он потрудится и для tex. Я не шучу! Мы напишем наш after-syntax файл $HOME/.vim/after/syntax/tex.vim в котором будет использован вызов VimwikiGet() и слегка адаптированная функция vimwiki#base#nested_syntax()! Вот его содержание, а комментарии ниже:

" content highlights inside lstlisting must be disabled
syntax region texZone start="\\begin{lstlisting}" end="\\end{lstlisting}"
" fallback option for minted is also texZone
syntax region texZone start="\\begin{minted}" end="\\end{minted}"

if !exists('g:tex_hl_minted') || g:tex_hl_minted == 0
    finish
endif

" Vimwiki's function vimwiki#base#nested_syntax() adaptation
function! s:nested_syntax(hltype, filetype, start, end) abort
" From http://vim.wikia.com/wiki/VimTip857
  let ft=toupper(a:filetype)
  let group='textGroup'.ft
  if exists('b:current_syntax')
    let s:current_syntax=b:current_syntax
    " Remove current syntax definition, as some syntax files (e.g. cpp.vim)
    " do nothing if b:current_syntax is defined.
    unlet b:current_syntax
  endif

  " Some syntax files set up iskeyword which might scratch vimwiki a bit.
  " Let us save and restore it later.
  " let b:skip_set_iskeyword = 1
  let is_keyword = &iskeyword

  try
    " keep going even if syntax file is not found
    execute 'syntax include @'.group.' syntax/'.a:filetype.'.vim'
    execute 'syntax include @'.group.' after/syntax/'.a:filetype.'.vim'
  catch
  endtry

  execute 'syntax match texExtCodeLang "{\@<='.a:hltype.'\ze}"'
  execute 'syntax region texMintedStart start="\\begin{minted}" end="}" '.
              \ 'contains=texSectionMarker,texBeginEnd,texExtCodeLang '.
              \ 'nextgroup=@'.group.' contained'

  let &iskeyword = is_keyword

  if exists('s:current_syntax')
    let b:current_syntax=s:current_syntax
  else
    unlet b:current_syntax
  endif

  execute 'syntax region textSnip'.ft.
        \ ' start="'.a:start.'" end="'.a:end.'"'.
        \ ' contains=@'.group.',texMintedStart '.
        \ 'containedin=texDocZone,texPartZone,texChapterZone,'.
        \ 'texSectionZone,texSubSectionZone,texSubSubSectionZone,'.
        \ 'texParaZone,texSubParaZone,texAbstract keepend'

  " A workaround to Issue 115: Nested Perl syntax highlighting differs from
  " regular one.
  " Perl syntax file has perlFunctionName which is usually has no effect due to
  " 'contained' flag. Now we have 'syntax include' that makes all the groups
  " included as 'contained' into specific group.
  " Here perlFunctionName (with quite an angry regexp "\h\w*[^:]") clashes with
  " the rest syntax rules as now it has effect being really 'contained'.
  " Clear it!
  if ft =~ 'perl'
    syntax clear perlFunctionName
  endif
endfunction

let s:regStart = '\\begin{minted}\s*\n*\(\[\_[^]]*\]\)*\s*\n*{'
let s:regEnd ='\ze\\end{minted}'

let s:nested = VimwikiGet('nested_syntaxes')

if !empty(s:nested)
  for [s:hl_syntax, s:vim_syntax] in items(s:nested)
    if s:vim_syntax == 'tex'
      continue
    endif
    call s:nested_syntax(s:hl_syntax, s:vim_syntax,
                \ s:regStart.s:hl_syntax.'}', s:regEnd)
  endfor
endif

hi link texExtCodeLang Special

Чтобы это правильно работало, не забудьте вставить в .vimrc определение g:WikiGlobal.nested_syntaxes с указанием тех языков программирования, которые вы намерены подсвечивать в Vimwiki и Tex / minted. Кроме того, добавьте туда строки

let g:tex_isk = '48-57,a-z,A-Z,192-255,_'
let g:tex_hl_minted = 1

Теперь комментарии по коду. Первые два определения syntax region указывают, что мы хотим подсвечивать области, начинающиеся с \begin{lstlisting} или \begin{minted} и заканчивающиеся на \end{lstlisting} или \end{minted} соответственно, одним цветом региона texZone. Директива lstlisting - это часть пакета tex listings, который похож на minted, но, в отличие от последнего, использует не Python Pygments, а какие-то собственные алгоритмы. Его было бы тоже неплохо подсвечивать синтаксисом используемого языка программирования, но, к сожалению, в listings , в отличие от minted, язык задается в отдельной директиве.

Почему мы здесь задаем одноцветную подсветку texZone и для minted тоже? Ведь мы собирались использовать полноценный синтаксис языка программирования внутри его региона! Ответ прост - это fallback режим для языков типа Unknown, не указанных в g:WikiGlobal.nested_syntaxes. Более точные определения синтаксических регионов для всех сконфигурированных в g:WikiGlobal.nested_syntaxes языков задаются в цикле for в нижней части приведенного кода. Переменная s:nested, являющаяся выходным значением функции VimwikiGet(), содержит маппинг, заданный в переменной g:WikiGlobal.nested_syntaxes.

Главная задача цикла for - настройка уточненных синтаксических регионов minted для всех сконфигурированных языков программирования (кроме собственно tex - иначе мы получим одноцветный регион texZone для всех языков). В цикле происходит вызов функции s:nested_syntax() - слегка видоизмененной vimwiki#base#nested_syntax(). Изменений там немного. Во-первых изменен прототип: первым аргументом добавлен ключ из элемента g:WikiGlobal.nested_syntaxes - он нужен для формирования синтаксической области texExtCodeLang - см. далее, и убран последний аргумент textSnipHl, который соответствовал ненужному нам matchgroup в синтаксическом регионе textSnip<Lang> (где <Lang> - синтаксическая группа, соответствующая конфигурируемому языку). Добавлены определения syntax match texExtCodeLang и syntax region texMintedStart, который внесен в список contains в определении syntax region textSnip<Lang>. Определение синтаксического региона textSnip - главная задача функции s:nested_syntax().

Синтаксический регион texMintedStart соответствует началу области minted и соответствует сложному регулярнуму выражению, заданному в переменной s:regStart. Сложность выражения позволяет разбивать отдельные элементы преамбулы \begin{minted} на отдельные строки. Область texExtCodeLang соответствует спецификации языка программирования в преамбуле minted и будет подсвечиваться цветом группы Special (см. последнюю строку приведенного кода).

Ну вот собственно и все, теперь все подсвечивается правильно. Спасибо Vimwiki!

Напоследок хочу уточнить, что указание переменной g:tex_isk будет работать только в последних версиях syntax/tex.vim. Например, в стандартном пакете vim в Fedora 17 используется старая версия этого файла, поэтому я положил текущую версию из репозитория vim к себе в $HOME/.vim/syntax/. Вообще, g:vim_isk нужен нам только для задания символа подчеркивания (_) в качестве символа iskeyword для файлов tex. В нашем случае это исправит возможные искажения синтаксиса внутри регионов minted, если в них используются символы подчеркивания. Для файлов tex символ подчеркивания был убран из списка iskeyword по каким-то соображениям, однако в последних версиях syntax/tex.vim появилась возможность вернуть его с помощью переменной g:tex_isk. Если у вас старая версия syntax/tex.vim и вы не хотите устанавливать новую версию в $HOME/.vim/syntax/, то можете просто добавить строку

setlocal iskeyword+=_

в файл $HOME/.vim/after/syntax/tex.vim.

суббота, 26 октября 2013 г.