在好例子网,分享、交流、成长!
您当前所在位置:首页C/C++ 开发实例常规C/C++编程 → PDF转文本(VC6.0代码)

PDF转文本(VC6.0代码)

常规C/C++编程

下载此实例
  • 开发语言:C/C++
  • 实例大小:1.71M
  • 下载次数:8
  • 浏览次数:205
  • 发布时间:2021-01-27
  • 实例类别:常规C/C++编程
  • 发 布 人:wxg_14
  • 文件格式:.rar
  • 所需积分:2
 相关标签: pdf 文本 提取 动态库

实例介绍

一个识别PDF文件并提取文字内容的动态库,附带一个简单的调用例子。

示例是用VC6.0写的,版本比较老

from clipboard


部分代码:

//szPDFFilePath:PDF文件完整路径
//szTextFilePath:TEXT文件完整路径
//返回值:0-成功;1-读取PDF失败;2-文本文件操作失败;3-PDF拷贝失败;99-其它错误
PDFTOTEXT_API int WINAPI fnPDFToText(char* szPDFFilePath,char* szTextFilePath)
{
int argc=5;
char* argv[5];
argv[0]=NULL;
argv[1]=szPDFFilePath;
char pLayout[]="-layout";
argv[2]=pLayout;
char pEnc[]="-enc";
argv[3]=pEnc;
char pGBK[]="GBK";
argv[4]=pGBK;


PDFDoc *doc;
GString *fileName;
GString *textFileName;
GString *ownerPW, *userPW;
TextOutputDev *textOut;
FILE *f;
UnicodeMap *uMap;
Object info;
GBool ok;
char *p;
int exitCode;

exitCode = 99;

// parse args
ok = parseArgs(argDesc, &argc, argv);
if (!ok || argc < 2 || argc > 3 || printVersion || printHelp) {
fprintf(stderr, "pdftotext version %s\n", xpdfVersion);
fprintf(stderr, "%s\n", xpdfCopyright);
if (!printVersion) {
printUsage("pdftotext", "<PDF-file> [<text-file>]", argDesc);
}
exitCode=4;
goto err0;
}
fileName = new GString(argv[1]);
if (fixedPitch) {
physLayout = gTrue;
}

// read config file
globalParams = new GlobalParams(cfgFileName);
if (textEncName[0]) {
globalParams->setTextEncoding(textEncName);
}
if (textEOL[0]) {
if (!globalParams->setTextEOL(textEOL)) {
fprintf(stderr, "Bad '-eol' value on command line\n");
}
}
if (noPageBreaks) {
globalParams->setTextPageBreaks(gFalse);
}
if (quiet) {
globalParams->setErrQuiet(quiet);
}

// get mapping to output encoding
if (!(uMap = globalParams->getTextEncoding())) {
error(errConfig, -1, "Couldn't get text encoding");
delete fileName;
exitCode=5;
goto err1;
}

// open PDF file
if (ownerPassword[0] != '\001') {
ownerPW = new GString(ownerPassword);
} else {
ownerPW = NULL;
}
if (userPassword[0] != '\001') {
userPW = new GString(userPassword);
} else {
userPW = NULL;
}
doc = new PDFDoc(fileName, ownerPW, userPW);
if (userPW) {
delete userPW;
}
if (ownerPW) {
delete ownerPW;
}
if (!doc->isOk()) {
exitCode = 1;
goto err2;
}

// check for copy permission
if (!doc->okToCopy()) {
error(errNotAllowed, -1,
"Copying of text from this document is not allowed.");
exitCode = 3;
goto err2;
}

// construct text file name
//  if (argc == 3) {
//    textFileName = new GString(argv[2]);
if(szTextFilePath)
{
textFileName = new GString(szTextFilePath);
}
else {
p = fileName->getCString() fileName->getLength() - 4;
if (!strcmp(p, ".pdf") || !strcmp(p, ".PDF")) {
textFileName = new GString(fileName->getCString(),
fileName->getLength() - 4);
} else {
textFileName = fileName->copy();
}
textFileName->append(htmlMeta ? ".html" : ".txt");
}

// get page range
if (firstPage < 1) {
firstPage = 1;
}
if (lastPage < 1 || lastPage > doc->getNumPages()) {
lastPage = doc->getNumPages();
}

// write HTML header
if (htmlMeta) {
if (!textFileName->cmp("-")) {
f = stdout;
} else {
if (!(f = fopen(textFileName->getCString(), "wb"))) {
error(errIO, -1, "Couldn't open text file '{0:t}'", textFileName);
exitCode = 2;
goto err3;
}
}
fputs("<html>\n", f);
fputs("<head>\n", f);
doc->getDocInfo(&info);
if (info.isDict()) {
printInfoString(f, info.getDict(), "Title", "<title>", "</title>\n",
uMap);
printInfoString(f, info.getDict(), "Subject",
"<meta name=\"Subject\" content=\"", "\">\n", uMap);
printInfoString(f, info.getDict(), "Keywords",
"<meta name=\"Keywords\" content=\"", "\">\n", uMap);
printInfoString(f, info.getDict(), "Author",
"<meta name=\"Author\" content=\"", "\">\n", uMap);
printInfoString(f, info.getDict(), "Creator",
"<meta name=\"Creator\" content=\"", "\">\n", uMap);
printInfoString(f, info.getDict(), "Producer",
"<meta name=\"Producer\" content=\"", "\">\n", uMap);
printInfoDate(f, info.getDict(), "CreationDate",
"<meta name=\"CreationDate\" content=\"%s\">\n");
printInfoDate(f, info.getDict(), "LastModifiedDate",
"<meta name=\"ModDate\" content=\"%s\">\n");
}
info.free();
fputs("</head>\n", f);
fputs("<body>\n", f);
fputs("<pre>\n", f);
if (f != stdout) {
fclose(f);
}
}

// write text file
//physLayout = gFalse;//wxg 是否保持原来的排版
textOut = new TextOutputDev(textFileName->getCString(),
physLayout, fixedPitch, rawOrder, htmlMeta);
if (textOut->isOk()) {
doc->displayPages(textOut, firstPage, lastPage, 72, 72, 0,
gFalse, gTrue, gFalse);
} else {
delete textOut;
exitCode = 2;
goto err3;
}
delete textOut;

// write end of HTML file
if (htmlMeta) {
if (!textFileName->cmp("-")) {
f = stdout;
} else {
if (!(f = fopen(textFileName->getCString(), "ab"))) {
error(errIO, -1, "Couldn't open text file '{0:t}'", textFileName);
exitCode = 2;
goto err3;
}
}
fputs("</pre>\n", f);
fputs("</body>\n", f);
fputs("</html>\n", f);
if (f != stdout) {
fclose(f);
}
}

exitCode = 0;

// clean up
err3:
delete textFileName;
err2:
delete doc;
uMap->decRefCnt();
err1:
delete globalParams;
err0:

// check for memory leaks
Object::memCheck(stderr);
gMemReport(stderr);

return exitCode;
}



实例下载地址

PDF转文本(VC6.0代码)

不能下载?内容有错? 点击这里报错 + 投诉 + 提问

好例子网口号:伸出你的我的手 — 分享

网友评论

发表评论

(您的评论需要经过审核才能显示)

查看所有0条评论>>

小贴士

感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。

  • 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
  • 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
  • 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
  • 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明

;
报警